Teoría y Construcción de pruebas Profesor Mauricio González Escuela de Psicología Universidad de La Serena. Este material consiste en apuntes de clases. No está corregido ni estructurado y sólo puede ser usado de base o guía para el estudio. Para mayor información los alumnos deben estudiar los capítulos correspondientes de los libros que a continuación se señalan. Se agradecerá recibir sugerencias y comentarios. Lewis Aiken (1996) “Test Psicológicos y evaluación”. 8º Edic. Edit. Prentice Hall Cap. 1 y apéndice A (En biblioteca) Fred Kerlinger (1988) “Investigación del Comportamiento” 3º Edic. Mc Graw Hill. Cap 3, 25, 26, 27. (En biblioteca) Anasstasi, A. y Urbina, S. (1998) . Test Psicológicos. México: Prentice Hall. Cap. 1 Magnusson (1998) Teoría y construcción de los test. México: Trillas Capítulo 1 ** Unidad I: * Perspectiva Histórica y orígenes. Las diferencias individuales en tiempos anteriores ( por ejemplo, en la Edad Media) no eran importantes, como lo son ahora, debido al teocentrismo imperante en la época. Con un vuelco a una postura antropocéntrica, las diferencias individuales o el interés por éstas, comienza a desarrollarse. Varios son los autores que destacan, entre ellos Galton, quien mostró bastante interés por medir los tiempos de reacción y agudeza sensorial, ya que pensaba que esto podía ser una medida de la inteligencia. Cabe mencionar que el gran impulsor del desarrollo de los Test, fueron las guerras mundiales. Discípulos de Galton, como Cattel, aporta un aspecto estadístico a los Test. Sin embargo a Binet le interesó medir la adaptación al sistema escolar de los niños, donde a partir de este estudio surge el concepto de Edad Mental, la cual se comparaba con respecto a la edad cronológica. Posteriormente surge el concepto de coeficiente intelectual (CI) al establecer el coeficiente entre Edad mental (EM) y Edad cronológica (EC) : EM/EC*100. Importancia también tuvieron los test Alfa y Beta, ya que en tiempos de guerra fueron útiles para seleccionar sujetos. En casi 80 años desde el comienzo de la aplicación de Test, se puede hablar de una especialidad Psicométrica, que se encarga exclusivamente de la aplicación y creación de test. * Funciones Los test en general se utilizan para medir características psicológicas de un sujeto o de un grupo de sujetos. La Aplicación de test, pruebas o instrumentos de medición psicológicos se hace, fundamentalmente, en el contexto de la investigación científica y de la evaluación conducente a un diagnóstico. En esta última, puede hacerse en un contexto clínico, en selección de personas en el ámbito laboral, en educación con diversos fines, desde la medición del rendimiento, la evaluación del nivel intelectual, la personalidad y muchos otros constructos. * Las Diferencias Individuales En general se asume que los seres humanos son susceptibles de ser descritos por un conjunto de características. Dichas características pueden ser separadas en aquellas que: - son comunes para todos los seres vivos - son comunes para todos los mamíferos - son comunes para todos los seres humanos - son comunes para todos los seres humanos de una clase (tipo) - son propios y únicos de un solo individuo. En general podría definirse como características psicológicas a aquellas cualidades o atributos que entran en lo que se llaman: - aspectos afectivos - aspectos cognitivos - aspectos conductuales. En este sentido, interesa conocer los " grados " en que una persona difiere de otra, o los grados en que difiere de algún valor estándar (promedio o norma) o algún perfil ideal. Se supone que las diferencias individuales son medibles (discriminables) y que se fundamentan en la existencia de una realidad objetiva subyacente. * Aspectos Epistemológicos de la Medición de las Diferencias Individuales La pregunta básica tiene que ver con el supuesto carácter objetivo de las características psicológicas, por ejemplo, ¿qué es la inteligencia o la personalidad? ¿Existe en la realidad? ¿Cómo se puede demostrar su existencia? ¿ Cómo hacer frente a las críticas que provienen desde el conductismo radical ?. Además, están estrechamente vinculados el concepto de validez que se analizará más adelante. El problema anterior también está vinculado al problema de la consistencia de las mediciones de una característica como por ejemplo la inteligencia. Estas mediciones ¿son estables en el tiempo o van cambiando? Si es estable como tradicionalmente se cree, ¿qué ocurre si las mediciones de inteligencia de una persona cambian en el tiempo?. ¿Tiene que ver con una falla en la teoría que supone que la inteligencia es estable o tiene que ver con una falla en el instrumento? ¿ Cómo saber si el error corresponde a uno u otro aspecto?. Lo anterior se puede analizar en el siguiente esquema: - hay un plano ontológico - hay un plano epistemológico - hay un plano metodológico. En términos muy generales se puede decir que el primero se refiere a lo real o verdadero y no podemos decir en rigor nada sobre sus características y la posibilidad de que exista con independencia de los observadores. El segundo plano es el de " modelo o mapa " que se tiene sobre la " realidad”. Corresponde a la teoría. Hay discrepancias entre los distintos teóricos sobre la construcción de ese " mapa”. Algunos sostienen que puede ser verdadero en cuanto puede representar fielmente la realidad. Otros afirman que puede ser sólo " isomórfico " es decir tener una forma similar a la realidad o equivalente. Otros piensan que es un esquema que básicamente mantiene cierta consistencia o correlaciones internas, pero no dice mucho acerca de cómo es la realidad. Otros piensan que no tiene validez hacer la pregunta, porque al construir el modelo, se construye la realidad. No nos interesa discutir estas posturas, sólo debemos decir que para trabajar en medición se debe aceptar algunos supuestos mínimos. Existe un isomorfismo entre el modelo y la realidad, es decir, el modelo, teoría, constructo, es semejante a la realidad. Los supuestos estadísticos son válidos. En ese sentido los modelos y teorías con sus constructos son probados empíricamente y si salen airosos de esa confrontación con los " hechos ", entonces se acepta la validez del constructo. Si los datos son consistentes entre medidas o entre distintas partes del test, entonces las mediciones son confiables. * Clasificación de Instrumentos ( Criterios ) 1.- Si es estandarizado o no estandarizado: se refiere a que existen instrumentos que han sido hechos por expertos en conocimientos teóricos de la variable a medir, expertos en estadísticas, quienes construyen cuidadosamente un instrumento y luego lo aplican a un gran grupo de personas de las cuales obtienen normas o estándares que sirven como referencias para posteriormente comparar los resultados obtenidos en la aplicación a un sujeto (o varios) en particular. Para que la aplicación de un test estandarizado sea válida y confiable se debe aplicar en condiciones estándar, que son las mismas que se utilizaron en la aplicación de estandarización.. Los Test no estandarizados deben ser construidos con la mayor rigurosidad posible, pero los puntajes obtenidos de sus aplicaciones no se pueden interpretar en términos generales. Su interpretación dependerá de la cantidad de sujetos a los que se les aplicó y sólo se pueden comparar los sujetos evaluados entre ellos. Si se aplica a un solo sujeto, los resultados sólo se pueden interpretar teóricamente y cuantitativamente. Para que un test sea de buena calidad no es requisito sustancial el que esté estandarizado. 2.- Individuales o Grupales: hay test que no pueden ser aplicados a grupos, sino que solamente de manera individual. Los Test individuales son más demorosos y caros, pero se puede obtener más información. En cambio, en los grupales, la información es más general aunque su aplicación es menos demorosa y más económica. 3.- Velocidad / Poder: tiene que ver con el tiempo que se le da a la persona para responder. En las pruebas de velocidad interesa más la rapidez de la persona en responder la tarea y por lo general los test consisten en un gran numero de reactivos de baja complejidad con escaso tiempo límite. El poder quiere medir la capacidad de la persona para resolver problemas complejos y los test constan de pocas preguntas de complejidad alta sin tiempo límite. 4.- Objetivo/ No Objetivo: cuando es objetivo se tiene claro cómo se aplica, cómo se obtienen los puntajes y el significado de los puntajes. Esto implica que los reactivos son estructurados y admiten un número limitado de respuestas. Una prueba subjetiva tiene preguntas poco estructuradas y admiten muchas respuestas posibles. Los puntajes se asignan según el criterio del evaluador y generalmente esa evaluación es cualitativa. La interpretación depende del evaluador en muchos aspectos.. 5.- Verbales/ No verbales/ de Ejecución: una prueba será verbal cuando los reactivos requieran del lenguaje verbal. Su desventaja es que no se pueden aplicar a personas analfabetas, ciegos, mudos, o niños muy pequeños. Los no verbales son aquellos cuyos reactivos no interactúan por medio del lenguaje verbal. En los de ejecución se requiere que el sujeto manipule un aparato u objetos específicos. 6.- Test cognitivo/ afectivo: un test cognitivo busca medir los productos de la actividad o procesos mentales. Este tipo de test puede dividirse en aptitudes y logros. El primero pretende predecir el rendimiento futuro en alguna actividad; el segundo busca medir conocimiento que se han adquirido. Los test afectivos son los que miden aspectos de personalidad: actitudes, temperamento, etc. También se puede hacer una pauta más amplia utilizando como criterio la forma en que se obtiene la información: a) observación conductual: por ejemplo medir a través de una pauta sin contacto directo con el sujeto y evaluar conductas en un contexto. b) pruebas de lápiz y papel c) dibujos proyectivos d) reportes de terceros e) autorreportes Todas estas clasificaciones no son excluyentes. * Técnicas de Evaluación Objetivas: Instrumentos y Aparatos Los instrumentos de evaluación objetiva se refiere a aquellos que registran mediciones de características independientes del observador e incluso de acción conciente del evaluado; se refiere a aparatos mecánicos de actividad fisiológica y neurofisiológica, por ejemplo el electroencéfalograma, el electrocardiograma. Los instrumentos objetivos en este contexto generalmente están estandarizados. Por otra parte el carácter de objetivo se puede determinar basándose en dos dimensiones básicas: - cada vez que se aplique por la misma persona o por distintas personas (a un mismo sujeto), se obtenga el mismo resultado - De preferencia tener un grupo de referencia normativo con el cual comparar los datos e interpretarlos. La mayoría de los test conocidos son autoinformes, es decir, quien responde " informe sobre sí mismo . Su característica principal es que los reactivos hacen preguntas referidas a ideas, pensamientos, conductas o actitudes que la persona debe reconocer en si misma y referir el grado de acuerdo a desacuerdo o de identificación con lo afirmado. Se refieren a todos aquellos instrumentos en los cuales el individuo responde una serie de reactivos referidos a aspectos de su vida interna. La mayoría de las pruebas de personalidad, intereses y actitudes utilizan este tipo de test. Pueden ser objetivos o subjetivos, y pueden ser estandarizados o no estandarizados. * Psicometría y profesión Lo fundamental es que desde el origen del área con la creación de los primeros test, el campo se ha desarrollados de manera explosiva. En la actualidad hay profesionales dedicados ha construir test especializados. En el mercado se venden un gran número de test y a la vez existen personas que se dedican exclusivamente a aplicarlos. Más aún hay personas que se especializan en la aplicación de sólo un tipo de test. En Chile el aparato legal está un poco ambiguo. Requiere de mayor regulación y de poner mucho más cuidado en el plano ético por parte de los psicólogos y fundamentalmente por parte de otros profesionales no psicólogos.. Dependiendo de la complejidad del instrumento, se espera que sea aplicado por un profesional o psicólogo calificado. Hay instrumentos que deben ser aplicados exclusivamente por psicólogos. La razón principal radica en el complejo proceso de la interpretación y manejo de los resultados. * Aspectos Éticos en la Aplicación del Test Lo primero y más importante es el carácter de confidencialidad de la información obtenida por un test. Además la persona a quien se le aplica el test, debe estar informada de manera veraz sobre los objetivos del instrumento. En segundo lugar se encuentra el criterio del psicólogo para realizar ciertos diagnósticos, que muchas veces pueden resultar determinantes para la vida de una persona, en base a los datos de un instrumento, los tiene márgenes de error ciertas divergencias en la interpretación. ** Unidad II: * Constructos, Variables y Definiciones Operacionales Los términos concepto y constructo generalmente significan lo mismo. Sin embargo hay que hacer notar una diferencia: - Concepto: expresa una abstracción formada por generalizaciones sustraídas de casos particulares. Por ejemplo: peso, altura , longitud, masa, etc., son conceptos utilizados en la física. Los conceptos empleados para expresar la variedad de la conducta humana serían por ejemplo: agresividad, inteligencia, etc. De un conjunto de objetos se extraen las características básicas para llegar a formar un concepto. - Constructo: es un concepto, pero inventado o adoptado con un propósito o finalidad específica. El concepto de inteligencia se puede diferenciar del constructo de inteligencia, puede significar más o menos cosas que éste. Cuando queremos investigar científicamente acotamos un concepto para permitir su manejo y a su vez dejar fuera otras variables que si bien están relacionadas, complejizan el manejo del constructo. El objetivo de un constructo es acercar el fenómeno a lo empírico, a la realidad, al posibilidad de observarlo, estudiarlo y medirlo. Variables: son constructos o propiedades estudiadas que no se refieren a un objeto en sí, sino que a una característica de un objeto. Se refieren a propiedades de otros conceptos o constructos. Es una cualidad susceptible de adquirir distintos valores. En términos generales, la variable es un símbolo con valores numéricos asignados. Ejemplo: x, a, b. Si x es una actitud, los valores que puede asumir son cualquiera de los puntajes en una escala de actitud. El rendimiento medido en una prueba puede tener un valor entre 1 y 7. Los valores que pueda tener una variable, depende tanto de sus características intrínsecas, como del nivel de medición y las escalas que se utilicen. Puede tener dos valores o puede tenerr infinitos valores. Las variables son constructos y estos pueden ser definidos de manera constitutiva u operacional. - Definición Constitutiva: define un constructo utilizando otros constructos, por ejemplo, definir ansiedad como un miedo subjetivo. Los constructos deben poseer un significado constitutivo para ser útiles en el desarrollo de teorías. La ciencia se construye en base a constructos a comprobar empíricamente. Con las definiciones constitutivas sólo se puede observar. - Definición Operacional: proporciona significado a un constructo especificando las actividades u operaciones necesarias para medirlos. Es una especificación de las actividades que una persona deba realizar para medirlo. Por ejemplo, inteligencia es lo que la prueba "x" de inteligencia mide. Correspondería decir: en esta situación acordemos que inteligencia sea lo que la prueba de inteligencia "x" mide. O, el significado de la inteligencia en esta investigación está expresado por las calificaciones en la prueba de inteligencia "x". Así, un niño es inteligente si puede leer un cuento breve, si no puede leerlo, no es inteligente. O bien, si puede sumar, multiplicar, leer y definir a lo menos diez de veinte objetos cotidianos. * Fundamentos de la Medición - Medición: asignación de valores numéricos a objetos o eventos de acuerdo con reglas. La buena o mala medición va a depender de las reglas. Teóricamente se puede medir cualquier cosa, el problema está en la consistencia de lo medido. Un proceso de medición va a ser mejor, mientras más se acerque a la realidad. Los problemas asociados a la asignación de valores depende del tipo de objeto o evento, donde se miden atributos de una variable. Así tenemos que en ciencias naturales, se miden variables como longitud, peso, volumen. En Psicología en cambio, se miden características individuales o grupales; inteligencia, agresividad, etc. Valor Numérico: es básicamente un símbolo: 1,2, 3; A,B,C; I,II,III. No tiene un valor cuantitativo, a menos que se le otorgue tal significado. Número: valor numérico, al cual se le ha dado un significado cuantitativo. En cambio un símbolo puede tener valor cuantitativo o cualitativo. En términos abstractos matemáticos, se habla de " mapear " los objetos de un conjunto dentro de los elementos de otro conjunto, que a su vez es una función con reglas de correspondencia. Ejemplo: Valores numéricos 1 2 Conjunto de objetos o eventos A B C D E F G H I J - La regla: es una guía, un método, un mandato que indica un procedimiento a seguir. Una regla matemática es una función. * Isomorfismo entre Medición y Realidad Para que una medición tenga sentido, debe tener correspondencia con la realidad. Para que una regla sea útil, debe darse este isomorfismo entre medición y realidad. El Isomorfismo se da cuando se mida de mejor manera la realidad. ¿ Cómo se mide mejor la realidad? No hay una manera de estar seguro sobre lo que es la realidad y la posibilidad de acceder a ella , sólo podemos esperar que las técnicas matemáticas y estadísticas desarrolladas para dichos fines puedan cumplir con sus objetivos . Esperamos que el encontrar alta consistencia entre las medidas, congruencia entre medidas relacionadas, correlaciones fuertes y capacidad predictiva, estos supuestos de objetividad y de aproximación a la realidad se cumplan. Un buen proceso de medición, que tenga sentido y significado para las personas, debe tener una alta correspondencia con la “realidad”, es decir debe haber claridad sobre los objetos que se están midiendo, sobre los conjuntos numéricos con los que se asignan valores y además tener reglas de asignación adecuadas. Lo que en último término se mide son las características o propiedades de los objetos o personas. Estas mediciones se hacen a través de indicadores. Las cualidades psicológicas no pueden observarse directamente; deben inferirse a partir de la observación de indicadores. * Niveles de Medición y Escalas El universo es el número total de sujetos a medir. Para que haya medición del universo, la variable debe ser dividida a lo menos en dos valores posibles. Ejemplo: universo: estudiantes de tercer año de psicología que están en esta asignatura. El criterio sería hombres y mujeres, es decir es la partición del universo en dos subconjuntos, excluyentes mutuamente y exhaustivos, y se asignan y se cuentan los sujetos. Se les puede asignar valores de 1 y 0. Al asignar los casos de cada categoría, se está clasificando. Hay tres conceptos a entender por separado: a) Niveles de Medición b) Escalas asociadas a los niveles de medición c) estadística adecuada a cada nivel. * Niveles de medición: existen cuatro; nominal, ordinal, intervalo, de razón. Una misma variable se puede medir de manera nominal u ordinal. Las reglas usadas para asignar objetos definen el tipo de escala y el nivel de medición. 1.- Medición Nominal: es el nivel más bajo en calidad, los números asignados no poseen un valor numeral, sólo nominal. No pueden ser ordenados, ni sumados, ni promediados, sólo pueden ser contados. Es asignar una categoría, por ejemplo: hombre/ mujer, si se les asigna un valor numérico solamente descriptivo. 2.- Medición Ordinal: sugiere que los sujetos pueden tener un rango y ser ordenados en base a una propiedad definida de manera operacional. El rango es el número que ocupa una variable entre un máximo y un mínimo. Debe satisfacer la ley de la transitividad, es decir, si a es mayor que b , y b mayor que c, entonces a es mayor que c. Hay tres formas de ordenar : - en base a una cualidad - en base a propiedades o criterios combinados - o por medio de un símbolo, que diga de manera abstracta que el uno está por encima del otro, o a la inversa. La limitación de este nivel, es que no dice cual es la cantidad de distancia entre uno y otro. Los rangos no indican valores absolutos. 3.- Medición de Intervalo: posee las características de los dos niveles anteriores, pero además los valores asignados representan distancia iguales en la propiedad que se está midiendo. Al hablar de intervalo, se refiere a la distancia arbitraria entre uno y otro, los cuales se pueden cuantificar. La diferencia de la escala de intervalo con la escala de razón, es que la primera no tiene cero absoluto, no tiene un valor de referencia que indique la ausencia del valor de la variable. Se puede decir la distancia del intervalo en que están dos sujetos o valores, pero no si la distancia es el doble o triple de la otra. En psicología, en rigor, se puede llegar sólo hasta un nivel ordinal de medición, porque en las características psicológicas no hay un cero absoluto. Este es arbitrario, por lo tanto, si en un test de inteligencia asigno puntuaciones de 80 o 100, éstos son arbitrarios, y sólo se asume el isomorfismo con la realidad. 4.- Medición de Razón : es el nivel más alto de medición y es el que prefieren los científicos. Posee las características de los niveles anteriores, pero además posee un cero absoluto natural, que tiene significado empírico. Si un sujeto obtiene un valor 0, existe una base para decir, que él no tiene la cualidad medida. Esto permite todas las operaciones aritméticas, por ejemplo aquí es posible decir que un alumno con una puntuación de 8, en una escala de logro, tiene un nivel de logro dos veces mayor que otro que obtuvo 4. Los niveles que mayormente se utilizan son el nominal y el ordinal; y muchas veces pueden aproximarse bastante bien a mediciones de intervalo. En el nivel nominal se pueden utilizar estadísticas de frecuencia, como por ejemplo la prueba del Chi cuadrado (), porcentaje, y algunos coeficientes de correlación ( coeficiente de contingencia ). Cuando no se encuentran otras formas de medir, casi siempre se puede hacer particiones de los sujetos en dos grupos. Por ejemplo: sexo/ motivación por estudios de psicología; donde se hace una partición de la motivación. Hablando en forma estricta y básica, los puntajes en las pruebas de inteligencia, de aptitud y de personalidad son ordinales. Indican con mayor exactitud, no las cantidades de inteligencia, aptitud o de rasgos, sino la posición de orden por rango. Por ejemplo, no es posible decir que un individuo tiene una inteligencia de 0, ya que algún grado de inteligencia tendrá. Sin un cero absoluto no es posible sumar las cantidades de inteligencia. La falta de un cero real no es tan serio. Lo más serio es la falta de intervalos iguales. Lo que más interesa es tener una medida de las distancias entre los valores que se aproximen lo más posible a la realidad. En general, se utilizan criterios flexibles y estadísticos r (coeficiente de correlación) t (t de student para la diferencia de medias), F (para análisis de varianza en diseños factoriales) con medidas ordinales, se consideran el punto medio entre valores positivos y negativos, como 0. En la mayoría de las escalas ordinales usadas en Psicología, se pueden suponer intervalos iguales. Mientras más se aproximen los valores a la linealidad es posible suponer con mayor certeza que tienen intervalos iguales.