Escalas de evaluación: perspectivas de funcionamiento, propiedades psicométricas y selección Rafael, A. ¿QUÉ ES UNA ESCALA DE EVALUACIÓN? 2 ¿Cuáles son las ventajas de estas escalas? 2 ¿Qué inconvenientes tienen? 4 ¿QUÉ FACTORES AFECTAN AL FUNCIONAMIENTO DE ESTAS ESCALAS? 4 ¿En qué consisten los factores individuales, contextuales e interpersonales? ¿Cuáles son los factores relacionados con la escala? 5 ¿Qué propiedades psicométricas son importantes? 7 ¿Qué entendemos por fiabilidad? 7 La fiabilidad interna… 7 La fiabilidad test-retest… 8 Fiabilidad Inter-jueces… 8 Fiabilidad paralela… 9 ¿Qué es la validez? 9 Validez de contenido… 10 Validez de criterio… 10 Validez de constructo… 10 ¿QUÉ FACTORES DEBEMOS TENER EN CUENTA AL SELECCIONAR UNA ESCALA? 12 1 4 Escalas de Evaluación: Perspectivas de Funcionamiento, Propiedades Psicométricas y Selección. ¿Qué es una Escala de Evaluación? El término “escala de evaluación” es amplio y acompaña a múltiples tipos de medidas, entre los que se incluyen listados de síntomas (cheklist), cuestionarios, inventarios, autoinformes, índices y otras medidas. La “escala de evaluación” se refiere a cualquier tipo de medida que proporciona una evaluación relativamente rápida sobre una información especifica. Proporciona una puntuación numérica que se interpreta con facilidad, y puede ser completada por el joven o por alguien más, a pesar del formato de la respuesta y lo independiente de la aplicación. De forma tradicional, el autoinforme ha sido utilizado para evaluar los trastornos internalizados y el funcionamiento emocional, mientras que los informes realizados por los padres y profesores han sido utilizados para evaluar los trastornos externalizados y la conducta. No obstante, las escalas más recientes han incorporado múltiples informantes. Existen muchos tipos de escalas, específicas o genéricas, unidimensionales o multidimensionales. Pueden estar completadas por varios informantes, cada uno proporcionando una perspectiva diferente. Los adolescentes describen sus propias percepciones. Los padres proporcionan el conocimiento más comprensivo mientras observan las variaciones en el comportamiento a través de situaciones múltiples. Los profesores informan acerca del comportamiento escolar y relacional. Finalmente, las escalas de evaluación están estandarizadas. Poseen sistemas de puntuación, y procedimientos de administración que no cambian, son estables respecto a usuarios, aplicaciones, administraciones o tiempo. ¿Cuáles son las ventajas de estas escalas? Tienen múltiples aplicaciones. Las escalas de evaluación son utilizadas para: Observar a los grupos en los emplazamientos normativos como la escuela o la comunidad. Observar la aparición de síntomas en los adolescentes de alto riesgo. Asegurar la selección de sujetos homogéneos de investigación. Evaluar los efectos de la intervención. Determinar los resultados del tratamiento. 2 Cubren de forma sistemática las conductas, reduciendo por ello la variabilidad en la recolección de datos. Proporcionan información cuantificable relacionada con la presencia, frecuencia, e importancia de la conducta y los síntomas. Permiten comparaciones con las administraciones múltiples, con amigos en circunstancias similares, y con la población general de otros sujetos. Permiten al paciente confirmar más fácilmente los síntomas molestos que son reacios a discutir. Pueden también revelar los comportamientos difíciles de observar. Las escalas de evaluación son fáciles de puntuar e interpretar. Son eficientes y económicas en cuanto a tiempo, coste y personal. De gran importancia para los tratamientos basados en los resultados es la información proporcionada por estos indicadores cuantificables. Finalmente, una ventaja importante es que no es necesario el entrenamiento especializado para utilizar la mayoría de escalas. Un breve entrenamiento informa sobre la interpretación de la escala, las variaciones de informantes, y sus limitaciones. El examinador debe proporcionar instrucciones estandarizadas a los sujetos que completan las escalas. 3 ¿Qué inconvenientes tienen? Los inconvenientes se relacionan principalmente con las habilidades de autoinforme de los niños y adolescentes, los objetivos del examinador acerca de la escala, y las propiedades psicométricas. Aunque los adolescentes han sido generalmente considerados como autoinformantes competentes, los factores como la evaluación de lectura, dificultades en el aprendizaje, madurez psicológica, y la experiencia pueden atenuar su competencia. La competencia de los niños es incluso menos clara. Además de los factores que afectan a la competencia de los adolescentes, los niños pueden tener limitaciones lingüísticas, falta de autoreflexión, alteración de la capacidad emocional, y pobre habilidad para observar su comportamiento, pensamiento y sentimiento. Pueden también tender a responder de una forma socialmente deseable. Pese a todos estos inconvenientes, numerosas investigaciones muestran que tanto los niños como los adolescentes pueden ser autoinformantes fiables y válidos. Sin embargo, se debe tener precaución y asegurarse de que existe un marco apropiado entre una escala particular y el joven que la completa. Otro inconveniente de estas escalas es el hecho de que el examinador pueda tener objetivos poco reales o expectativas pobremente formuladas para una escala y por ello no apreciar métodos alternativos para evaluar la misma información. Las escalas de evaluación no son instrumentos diagnósticos y no deben sustituir a la evaluación diagnóstica. Las expectativas para una escala y la información obtenida a partir de esta, deben estar claras antes de elegirla. Las desventajas relacionadas con las propiedades psicométricas son complejas, pero críticas respecto al funcionamiento de una escala. La mayoría de escalas de evaluación no tienen la suficiente información psicométrica para permitir decisiones óptimas sobre su uso. Existe una falta de datos normativos para interpretar las puntuaciones. La mayoría de las escalas tienen falta de validez. No obstante y pese a estos inconvenientes, las escalas de evaluación pueden ser muy útiles en la evaluación y tratamiento de los niños y adolescentes. ¿Qué factores afectan al funcionamiento de estas escalas? Aunque la mayoría de las escalas discriminan clínicamente a los jóvenes que acuden a consulta del resto, los niveles de error llegan hasta el 30%. El resultado de la escala se ve afectado por múltiples factores, los cuales se clasifican en: Factores individuales, contextuales e interpersonales. Factores relacionados con la escala. Factores relacionados con las propiedades psicométricas. ¿En qué consisten los factores individuales, contextuales e interpersonales? Los factores individuales que pueden afectar al funcionamiento de las escalas incluyen: Los bajos niveles de fiabilidad y validez relacionados con el nivel de desarrollo del paciente. 4 Las diferencias de género respecto a la obtención de puntuaciones (el género femenino obtiene mayores puntuaciones en las escalas que miden trastornos internalizados). El factor de deseabilidad social, los jóvenes que buscan aceptación social pueden no informar de todos los síntomas, mientras que aquellos que se sienten sobreprotegidos pueden informar en exceso sus síntomas. Respecto a los factores contextuales, diversas investigaciones muestran que los autoinformes tanto de los niños como de los adolescentes están influenciados por la situación. El funcionamiento emocional y de comportamiento de los niños más jóvenes es especialmente reactivo a los factores ambientales. Los jóvenes también funcionan de forma diferente a través de los distintos emplazamientos, como entre casa y la escuela, o entre la clase y el patio de juegos. Así mismo, existe una pobre concordancia entre los diferentes informantes adultos y entre los informantes juveniles y adultos. Cuatro factores son particularmente importantes relacionados con esta pobre concordancia: factores contextuales, el desarrollo del joven, la psicopatología paternal y el tipo de síntoma evaluado. Los factores contextuales fueron discutidos con anterioridad en relación con el funcionamiento diferencial del joven. Generalmente, las madres tienden a elevar los síntomas de los niños más que los padres, quizás sugiriendo los diferentes contextos que los jóvenes experimentan con cada padre. En cuanto al desarrollo se refiere, cuanto mayor el niño, mejor concordancia entre los informes de los jóvenes y los adultos. La concordancia en todas las edades desciende cuando las madres están deprimidas, ya que informan en exceso los síntomas depresivos y posiblemente los problemas de comportamiento en sus hijos. Otros factores que afectan a la madre pueden también influir en la percepción de su hijo. El tipo de síntoma también es relevante. Padres e hijos coinciden más respecto a comportamientos concretos y observables como los suspensos en la escuela o las peleas, pero poco sobre los síntomas psicológicos como la tristeza o el pensamiento suicida. En general, los padres son mejores informantes de comportamientos observables (conducta) y los jóvenes son mejores informantes de síntomas internos (pensamiento y sentimiento). ¿Cuáles son los factores relacionados con la escala? Es importante conocer el contexto en el que la escala se desarrolló y decidir si es suficientemente similar con el contexto en el que se aplica actualmente, para asegurar la variabilidad mínima en su funcionamiento. Una preocupación particular es el grado con el que la escala mide la complejidad de un problema. El ámbito de una escala puede ser demasiado específico para ayudar a definir las implicaciones clínicas, o por el contrario, demasiado general para medir aquello que es objeto de interés. 5 En ocasiones, las escalas no proporcionan un número óptimo de opciones de respuesta para un propósito determinado. El tipo de opciones de respuesta es vago (Ej., nunca, a veces, a menudo) y confunde a los jóvenes. Por otra parte, si las opciones de respuesta son demasiado precisas (Ej., nunca, semanalmente, mensualmente), la fiabilidad y validez pueden verse comprometidas. La longitud de la escala también es importante. Generalmente, una escala más larga demuestra mejores propiedades psicométricas, pero puede hacer afectar a la habilidad del joven para mantener el interés y responder adecuadamente a lo largo de toda la administración de la escala. Si las propiedades de la escala no se revisan, los cambios y la evolución de la psicopatología, los cambios en el desarrollo de los jóvenes y otros factores pueden alterar la aplicabilidad de la misma. Así mismo, las versiones de una escala han de conllevar una revisión de las propiedades psicométricas. 6 ¿Qué propiedades psicométricas son importantes? Las escalas de evaluación no proporcionan “la verdad”. Representan medidas de una variable La medida es el proceso sistemático de asignar un número a su variable. Sin embargo, tal medida esta sujeta a error, y por lo tanto a la variabilidad de funcionamiento. Las propiedades psicométricas proporcionan una estimación de este error, y por tanto revelan como de relevantes podrían ser estas puntuaciones para una aplicación seleccionada. Desdichadamente, la mayoría de escalas no proporcionan todos los datos psicométricos deseados para seleccionar la mejor escala; e incluso cuando tales datos están disponibles, pueden no ser óptimos. El usuario debe entonces decidir qué propiedades se acoplan mejor a las necesidades de una aplicación particular. Un factor psicométrico importante que afecta a la variabilidad es la elección de una puntuación de corte. Éstas son útiles para identificar a los individuos para futuras evaluaciones clínicas, pero siempre representan un contravalor entre la sensibilidad y la especificidad. Los puntos de corte pueden alterar enormemente la elección de quién será considerado clínicamente significativo y quien no recibirá más intervención. La conversión de las puntuaciones simples a puntuaciones T proporciona una mayor estandarización así como una comparación útil con relación a todos los demás examinadores. Las puntuaciones T mayores de 70 representan 2 DS por encima de la media (T=50) y son consideradas estadísticamente significativas, pero puntuaciones inferiores pueden ser clínicamente significativas. La adhesión estricta bien a las puntuaciones de corte simples o a las puntuaciones T para definir la importancia clínica puede desestimar a pacientes con necesidad de tratamiento. Otro aspecto importante de las escalas son los datos normativos. Proporcionan información sobre la representatividad del funcionamiento de una escala. Deben ser representativos de la población actual y deben ser estratificados en variables relevantes que muestren diferencias en las puntuaciones, normalmente edad y género, pero a menudo también la etnia y geografía. Los valores normativos se ven afectados por los niveles basales de la característica que se mide, así como su distribución en la población. ¿Qué entendemos por fiabilidad? La fiabilidad está relacionada con la precisión del instrumento de medida. Hace referencia a la consistencia con que todos los ítems de una escala miden una misma característica, y la consistencia con la que la escala total mide dicha característica de la misma forma cada vez. Existen 4 aproximaciones para la fiabilidad: Fiabilidad interna o consistencia interna: consistencia de los ítems que comprenden la escala. Fiabilidad test – retest o estabilidad: estabilidad de la escala a través del tiempo y diferentes medidas. Fiabilidad Inter-jueces: acuerdo entre los diferentes evaluadores que utilizan la escala. Fiabilidad paralela: concordancia entre formas similares de una escala. La fiabilidad interna… 7 La fiabilidad interna, o consistencia interna, mide la homogeneidad de la escala. Representa el grado de coherencia entre los diferentes ítems de la escala, obteniéndose a través de ellos la misma información. Es decir, cuando la correlación entre las respuestas a los distintos ítems es positiva, siempre que todos evalúen la característica de que se trata en el mismo sentido. Los ítems que no son internamente consistentes son eliminados de la versión final de la escala. Las escalas que miden una sola característica se suponen de mayor fiabilidad interna. Las escalas multifactoriales, o aquellas que comprenden una amplia variedad de síntomas, poseen menor fiabilidad interna. En general, las escalas de evaluación más amplias tienden a tener una consistencia interna mayor que las escalas más exiguas. Existen diversas formas de medir la consistencia interna. La más común es el Coeficiente α de Cronbach, una medida de la evaluación de relación entre todos los ítems. Otra forma de medir la consistencia interna es el método de las dos mitades. Consiste en dividir la escala en dos mitades que constituirán dos medidas equivalentes de la misma característica. Estas dos mitades pueden ser elegidas de varias formas, por ejemplo, la primera mitad con la última mitad de los ítems, incluso números pares con números impares, o selección al azar de ítems de cada grupo. Este diseño plantea algunos inconvenientes, ya que reduce el número de ítems evaluados mediante correlaciones. Por ello se aplica un procedimiento donde se aplica la fórmula de Spearman-Brown (aplicación del coeficiente alfa a la suma de ítems estandarizados). Para cualquiera de estos diseños de fiabilidad interna, los coeficientes que exceden el 0.80 sugieren que la escala es generalmente consistente. Sin embargo, un coeficiente de 0.80 también significa que el 20% de la puntuación de la escala se debe a un error casual. Así, cuanto mayor es el coeficiente de fiabilidad más confianza da al evaluador. La fiabilidad test-retest… La fiabilidad test-retest, o estabilidad, evalúa si una escala es estable con el tiempo. Si la variable medida no ha cambiado, entonces las puntuaciones de una escala deberían de ser similares a través de las diferentes administraciones, y la estabilidad debería de ser alta. La fiabilidad test-retest es muy importante cuando una escala se utiliza para evaluar el progreso del tratamiento. Si una escala no es estable, entonces es imposible determinar si un cambio medido es real o representa un error casual en la escala. Una correlación mayor de 0.80 para dos administraciones (con un intervalo temporal de una a dos semanas) de una escala sugiere una estabilidad adecuada. Para las administraciones con un intervalo superior a un mes, una correlación mayor de 0.70 se considera una estabilidad razonable. Fiabilidad Inter-jueces… 8 La fidelidad inter-jueces representa el acuerdo, o concordancia, entre los diferentes informantes. Los informantes pueden incluir informantes no expertos, como los adultos que son familiares con el joven, pero la fiabilidad inter-jueces es más relevante para escalas basadas en síntomas que requieren un formato de entrevista estructurada. El entrenamiento es necesario para asegurar que los múltiples evaluadores están puntuando los ítems por igual, es decir, están utilizando la escala de forma consistente. Para evaluar su concordancia, las correlaciones pueden realizarse entre las puntuaciones totales de la escala así como los ítems individuales. De nuevo, las correlaciones mayores de 0.80 son aceptables. Fiabilidad paralela… La fidelidad de formas paralelas también evalúa el acuerdo entre diferentes entidades, pero esta vez entre dos formas de una escala. Cuando tales formas paralelas de una escala existen, como las versiones del padre y el hijo o las versiones largas y cortas, deben mantener la misma información y sus puntuaciones deben estar muy relacionadas. Las correlaciones mayores de 0.80 apuntan una fiabilidad paralela correcta. ¿Qué es la validez? La validez pertenece a si la escala evalúa adecuadamente lo que estaba diseñada para evaluar. Es el grado en que una determinada inferencia a partir de una escala es apropiada o significativa. Se trata pues, de determinar hasta que punto un test es útil para extraer de él determinadas conclusiones. Esto es un aspecto importante para las escalas que miden la psicopatología infanto-juvenil debido a la cuestionable validez de los diagnósticos infantiles, los criterios diagnósticos cambiantes y la historia natural del curso de los trastornos infanto- juveniles. Existen tres tipos importantes de validez: contenido, criterio y validez de constructo. 9 Validez de contenido… La validez de contenido evalúa si los ítems de la escala representan la entidad que se está midiendo. Suele estar asegurada mediante la creación de ítems a partir de los criterios diagnósticos o los síntomas del trastorno de interés o por medio del examen cuidadoso de los niños y adolescentes con el trastorno. Existen dos aproximaciones básicas con relación a esta validez: la validez externa y la validez lógica del contenido. La validez externa hace referencia al poder de generalización de los resultados obtenidos. Es determinada por el examen simple de los ítems y juzga subjetivamente si parecen estar midiendo el área de contenido. La validez lógica de contenido es más sistemática. Hace referencia a si la escala cubre el dominio de contenidos por completo, y si los ítems son representativos de todas las áreas que deberían estar incluidas. Sin embargo, esta información no siempre esta disponible. Validez de criterio… La validez de criterio ofrece una mayor profundidad que la validez de contenido. Está basada empíricamente, evalúa la relación con otras escalas (con validez establecida) que miden la misma característica. Las correlaciones con estas escalas proporcionan mayor seguridad sobre si la escala mide lo que se supone que tiene que medir. Existen 2 tipos de validez de criterio: la validez predictiva y la validez concurrente. La validez predictiva determina si un test es útil para predecir el comportamiento futuro de los individuos, para clasificarlos en un determinado grupo clínico o con relación a cualquier otro criterio interesante. La validez concurrente se refiere a la relación de una escala con un evento que es evaluado al mismo tiempo que se administra la escala. Tiene a su vez dos tipos: la convergente y la discriminante. La validez convergente es la extensión hacia la cual la escala se relaciona con alguna variable relevante teóricamente con la cual debe relacionarse, es decir, cuando dos medidas distintas de la misma variable coinciden en los resultados. La validez discriminante compara la puntuación de una escala para un grupo que es conocido como poseedor del trastorno con un grupo que es conocido como no poseedor del mismo. Si la escala es válida, entonces estos dos grupos deben tener diferentes puntuaciones. Validez de constructo… La validez de constructo hace referencia al hecho de que la estructura de relaciones de la escala es de la forma prevista por la teoría. Para considerar una escala como poseedora de validez de constructo debe poseer validez discriminante y convergente. Así la validez de constructo muestra que la escala converge y diverge de otras variables apropiadas. 10 La validez convergente y discriminante de una escala se evalúa utilizando un procedimiento estadístico conocido como análisis factorial. Este deriva grupos de variables que miden aspectos separados del trastorno. Si las variables son similares, se relacionan con el mismo ítem, demostrando una validez convergente. Las variables no asociadas con un ítem particular sugieren una validez discriminante. Alternativamente, la validez factorial esta determinada por la evaluación de si los ítems individuales se relacionan con la puntuación total de la escala y no se relacionan con las variables no relacionadas. Durante la interpretación de escalas, la fiabilidad se determina en primer lugar. La habilidad de la escala para actuar de manera similar en cada ocasión debe ser asegurada para evaluar su habilidad para medir una interpretación. En otras palabras, el error del azar debe ser minimizado para detectar cualquier error sistemático en la escala. Así, para ser válida, una escala debe ser de alguna forma fiable. No en cambio al contrario. Ninguna escala es completamente fiable y válida. 11 ¿Qué factores debemos tener en cuenta al seleccionar una escala? Para elegir la mejor escala, varios factores deben tenerse en cuenta: La estabilidad. La utilidad, que representa las ventajas prácticas que la escala ofrece y esta influenciada por el cómo de útil será la información y cómo de fácil su utilización. La adecuación, entendida como una estimación de la propiedad de la escala para las habilidades del joven. Una escala desarrollada para un adolescente no será aplicable para un joven en tercer grado con una incapacidad en el aprendizaje. La reactividad, que se refiere a como el acto de medir algo puede cambiarlo. Esto puede ser deseable para algunas intervenciones en las que la medida tiene la intención de provocar un cambio de comportamiento pero no es deseable con las escalas de evaluación que sólo intentan observar el cambio a partir del tratamiento. La apropiación se refiere a cómo de compatible es una escala con la evaluación deseada. Las escalas más apropiadas son válidas, estables y sensibles; miden el problema de una forma directa y no reactiva; tienen utilidad y son adecuadas. 12