[PDF]Escalas de evaluación: perspectivas de funcionamiento, propiedades psicométricas y selección

Anuncio
Escalas de evaluación: perspectivas de funcionamiento, propiedades
psicométricas y selección
Rafael, A.
¿QUÉ ES UNA ESCALA DE EVALUACIÓN? 2
¿Cuáles son las ventajas de estas escalas?
2
¿Qué inconvenientes tienen? 4
¿QUÉ FACTORES AFECTAN AL FUNCIONAMIENTO DE ESTAS ESCALAS? 4
¿En qué consisten los factores individuales, contextuales e interpersonales?
¿Cuáles son los factores relacionados con la escala? 5
¿Qué propiedades psicométricas son importantes?
7
¿Qué entendemos por fiabilidad? 7
La fiabilidad interna…
7
La fiabilidad test-retest… 8
Fiabilidad Inter-jueces… 8
Fiabilidad paralela…
9
¿Qué es la validez? 9
Validez de contenido… 10
Validez de criterio…
10
Validez de constructo… 10
¿QUÉ FACTORES DEBEMOS TENER EN CUENTA AL SELECCIONAR UNA ESCALA?
12
1
4
Escalas de Evaluación: Perspectivas de Funcionamiento,
Propiedades Psicométricas y Selección.
¿Qué es una Escala de Evaluación?
El término “escala de evaluación” es amplio y acompaña a múltiples tipos de medidas,
entre los que se incluyen listados de síntomas (cheklist), cuestionarios, inventarios,
autoinformes, índices y otras medidas.
La “escala de evaluación” se refiere a cualquier tipo de medida que proporciona una
evaluación relativamente rápida sobre una información especifica. Proporciona una
puntuación numérica que se interpreta con facilidad, y puede ser completada por el joven
o por alguien más, a pesar del formato de la respuesta y lo independiente de la aplicación.
De forma tradicional, el autoinforme ha sido utilizado para evaluar los trastornos
internalizados y el funcionamiento emocional, mientras que los informes realizados por los
padres y profesores han sido utilizados para evaluar los trastornos externalizados y la
conducta. No obstante, las escalas más recientes han incorporado múltiples informantes.
Existen muchos tipos de escalas, específicas o genéricas, unidimensionales o
multidimensionales.
Pueden estar completadas por varios informantes, cada uno proporcionando una
perspectiva diferente. Los adolescentes describen sus propias percepciones. Los padres
proporcionan el conocimiento más comprensivo mientras observan las variaciones en el
comportamiento a través de situaciones múltiples. Los profesores informan acerca del
comportamiento escolar y relacional.
Finalmente, las escalas de evaluación están estandarizadas. Poseen sistemas de
puntuación, y procedimientos de administración que no cambian, son estables respecto a
usuarios, aplicaciones, administraciones o tiempo.
¿Cuáles son las ventajas de estas escalas?
Tienen múltiples aplicaciones. Las escalas de evaluación son utilizadas para:
Observar a los grupos en los emplazamientos normativos como la escuela o la
comunidad.
Observar la aparición de síntomas en los adolescentes de alto riesgo.
Asegurar la selección de sujetos homogéneos de investigación.
Evaluar los efectos de la intervención.
Determinar los resultados del tratamiento.
2
Cubren de forma sistemática las conductas, reduciendo por ello la variabilidad en la
recolección de datos. Proporcionan información cuantificable relacionada con la
presencia, frecuencia, e importancia de la conducta y los síntomas. Permiten
comparaciones con las administraciones múltiples, con amigos en circunstancias
similares, y con la población general de otros sujetos. Permiten al paciente confirmar más
fácilmente los síntomas molestos que son reacios a discutir. Pueden también revelar los
comportamientos difíciles de observar. Las escalas de evaluación son fáciles de puntuar e
interpretar. Son eficientes y económicas en cuanto a tiempo, coste y personal. De gran
importancia para los tratamientos basados en los resultados es la información
proporcionada por estos indicadores cuantificables.
Finalmente, una ventaja importante es que no es necesario el entrenamiento
especializado para utilizar la mayoría de escalas. Un breve entrenamiento informa sobre
la interpretación de la escala, las variaciones de informantes, y sus limitaciones. El
examinador debe proporcionar instrucciones estandarizadas a los sujetos que completan
las escalas.
3
¿Qué inconvenientes tienen?
Los inconvenientes se relacionan principalmente con las habilidades de autoinforme de
los niños y adolescentes, los objetivos del examinador acerca de la escala, y las
propiedades psicométricas.
Aunque los adolescentes han sido generalmente considerados como autoinformantes
competentes, los factores como la evaluación de lectura, dificultades en el aprendizaje,
madurez psicológica, y la experiencia pueden atenuar su competencia. La competencia
de los niños es incluso menos clara. Además de los factores que afectan a la competencia
de los adolescentes, los niños pueden tener limitaciones lingüísticas, falta de
autoreflexión, alteración de la capacidad emocional, y pobre habilidad para observar su
comportamiento, pensamiento y sentimiento. Pueden también tender a responder de una
forma socialmente deseable. Pese a todos estos inconvenientes, numerosas
investigaciones muestran que tanto los niños como los adolescentes pueden ser
autoinformantes fiables y válidos. Sin embargo, se debe tener precaución y asegurarse de
que existe un marco apropiado entre una escala particular y el joven que la completa.
Otro inconveniente de estas escalas es el hecho de que el examinador pueda tener
objetivos poco reales o expectativas pobremente formuladas para una escala y por ello no
apreciar métodos alternativos para evaluar la misma información. Las escalas de
evaluación no son instrumentos diagnósticos y no deben sustituir a la evaluación
diagnóstica. Las expectativas para una escala y la información obtenida a partir de esta,
deben estar claras antes de elegirla.
Las desventajas relacionadas con las propiedades psicométricas son complejas, pero
críticas respecto al funcionamiento de una escala. La mayoría de escalas de evaluación
no tienen la suficiente información psicométrica para permitir decisiones óptimas sobre su
uso. Existe una falta de datos normativos para interpretar las puntuaciones. La mayoría de
las escalas tienen falta de validez.
No obstante y pese a estos inconvenientes, las escalas de evaluación pueden ser muy
útiles en la evaluación y tratamiento de los niños y adolescentes.
¿Qué factores afectan al funcionamiento de estas escalas?
Aunque la mayoría de las escalas discriminan clínicamente a los jóvenes que acuden a
consulta del resto, los niveles de error llegan hasta el 30%. El resultado de la escala se ve
afectado por múltiples factores, los cuales se clasifican en:
Factores individuales, contextuales e interpersonales.
Factores relacionados con la escala.
Factores relacionados con las propiedades psicométricas.
¿En qué consisten los factores individuales, contextuales e interpersonales?
Los factores individuales que pueden afectar al funcionamiento de las escalas incluyen:
Los bajos niveles de fiabilidad y validez relacionados con el nivel de desarrollo del
paciente.
4
Las diferencias de género respecto a la obtención de puntuaciones (el género femenino
obtiene mayores puntuaciones en las escalas que miden trastornos internalizados).
El factor de deseabilidad social, los jóvenes que buscan aceptación social pueden no
informar de todos los síntomas, mientras que aquellos que se sienten sobreprotegidos
pueden informar en exceso sus síntomas.
Respecto a los factores contextuales, diversas investigaciones muestran que los
autoinformes tanto de los niños como de los adolescentes están influenciados por la
situación. El funcionamiento emocional y de comportamiento de los niños más jóvenes es
especialmente reactivo a los factores ambientales. Los jóvenes también funcionan de
forma diferente a través de los distintos emplazamientos, como entre casa y la escuela, o
entre la clase y el patio de juegos.
Así mismo, existe una pobre concordancia entre los diferentes informantes adultos y entre
los informantes juveniles y adultos. Cuatro factores son particularmente importantes
relacionados con esta pobre concordancia: factores contextuales, el desarrollo del joven,
la psicopatología paternal y el tipo de síntoma evaluado.
Los factores contextuales fueron discutidos con anterioridad en relación con el
funcionamiento diferencial del joven. Generalmente, las madres tienden a elevar los
síntomas de los niños más que los padres, quizás sugiriendo los diferentes contextos que
los jóvenes experimentan con cada padre.
En cuanto al desarrollo se refiere, cuanto mayor el niño, mejor concordancia entre los
informes de los jóvenes y los adultos.
La concordancia en todas las edades desciende cuando las madres están deprimidas, ya
que informan en exceso los síntomas depresivos y posiblemente los problemas de
comportamiento en sus hijos. Otros factores que afectan a la madre pueden también
influir en la percepción de su hijo.
El tipo de síntoma también es relevante. Padres e hijos coinciden más respecto a
comportamientos concretos y observables como los suspensos en la escuela o las peleas,
pero poco sobre los síntomas psicológicos como la tristeza o el pensamiento suicida. En
general, los padres son mejores informantes de comportamientos observables (conducta)
y los jóvenes son mejores informantes de síntomas internos (pensamiento y sentimiento).
¿Cuáles son los factores relacionados con la escala?
Es importante conocer el contexto en el que la escala se desarrolló y decidir si es
suficientemente similar con el contexto en el que se aplica actualmente, para asegurar la
variabilidad mínima en su funcionamiento.
Una preocupación particular es el grado con el que la escala mide la complejidad de un
problema. El ámbito de una escala puede ser demasiado específico para ayudar a definir
las implicaciones clínicas, o por el contrario, demasiado general para medir aquello que es
objeto de interés.
5
En ocasiones, las escalas no proporcionan un número óptimo de opciones de respuesta
para un propósito determinado. El tipo de opciones de respuesta es vago (Ej., nunca, a
veces, a menudo) y confunde a los jóvenes. Por otra parte, si las opciones de respuesta
son demasiado precisas (Ej., nunca, semanalmente, mensualmente), la fiabilidad y validez
pueden verse comprometidas.
La longitud de la escala también es importante. Generalmente, una escala más larga
demuestra mejores propiedades psicométricas, pero puede hacer afectar a la habilidad
del joven para mantener el interés y responder adecuadamente a lo largo de toda la
administración de la escala.
Si las propiedades de la escala no se revisan, los cambios y la evolución de la
psicopatología, los cambios en el desarrollo de los jóvenes y otros factores pueden alterar
la aplicabilidad de la misma. Así mismo, las versiones de una escala han de conllevar una
revisión de las propiedades psicométricas.
6
¿Qué propiedades psicométricas son importantes?
Las escalas de evaluación no proporcionan “la verdad”. Representan medidas de una
variable La medida es el proceso sistemático de asignar un número a su variable. Sin
embargo, tal medida esta sujeta a error, y por lo tanto a la variabilidad de funcionamiento.
Las propiedades psicométricas proporcionan una estimación de este error, y por tanto
revelan como de relevantes podrían ser estas puntuaciones para una aplicación
seleccionada. Desdichadamente, la mayoría de escalas no proporcionan todos los datos
psicométricos deseados para seleccionar la mejor escala; e incluso cuando tales datos
están disponibles, pueden no ser óptimos. El usuario debe entonces decidir qué
propiedades se acoplan mejor a las necesidades de una aplicación particular.
Un factor psicométrico importante que afecta a la variabilidad es la elección de una
puntuación de corte. Éstas son útiles para identificar a los individuos para futuras
evaluaciones clínicas, pero siempre representan un contravalor entre la sensibilidad y la
especificidad. Los puntos de corte pueden alterar enormemente la elección de quién será
considerado clínicamente significativo y quien no recibirá más intervención. La conversión
de las puntuaciones simples a puntuaciones T proporciona una mayor estandarización así
como una comparación útil con relación a todos los demás examinadores. Las
puntuaciones T mayores de 70 representan 2 DS por encima de la media (T=50) y son
consideradas estadísticamente significativas, pero puntuaciones inferiores pueden ser
clínicamente significativas. La adhesión estricta bien a las puntuaciones de corte simples
o a las puntuaciones T para definir la importancia clínica puede desestimar a pacientes
con necesidad de tratamiento.
Otro aspecto importante de las escalas son los datos normativos. Proporcionan
información sobre la representatividad del funcionamiento de una escala. Deben ser
representativos de la población actual y deben ser estratificados en variables relevantes
que muestren diferencias en las puntuaciones, normalmente edad y género, pero a
menudo también la etnia y geografía. Los valores normativos se ven afectados por los
niveles basales de la característica que se mide, así como su distribución en la población.
¿Qué entendemos por fiabilidad?
La fiabilidad está relacionada con la precisión del instrumento de medida. Hace referencia
a la consistencia con que todos los ítems de una escala miden una misma característica,
y la consistencia con la que la escala total mide dicha característica de la misma forma
cada vez. Existen 4 aproximaciones para la fiabilidad:
Fiabilidad interna o consistencia interna: consistencia de los ítems que comprenden la
escala.
Fiabilidad test – retest o estabilidad: estabilidad de la escala a través del tiempo y
diferentes medidas.
Fiabilidad Inter-jueces: acuerdo entre los diferentes evaluadores que utilizan la escala.
Fiabilidad paralela: concordancia entre formas similares de una escala.
La fiabilidad interna…
7
La fiabilidad interna, o consistencia interna, mide la homogeneidad de la escala.
Representa el grado de coherencia entre los diferentes ítems de la escala, obteniéndose a
través de ellos la misma información. Es decir, cuando la correlación entre las respuestas
a los distintos ítems es positiva, siempre que todos evalúen la característica de que se
trata en el mismo sentido. Los ítems que no son internamente consistentes son
eliminados de la versión final de la escala.
Las escalas que miden una sola característica se suponen de mayor fiabilidad interna. Las
escalas multifactoriales, o aquellas que comprenden una amplia variedad de síntomas,
poseen menor fiabilidad interna. En general, las escalas de evaluación más amplias
tienden a tener una consistencia interna mayor que las escalas más exiguas.
Existen diversas formas de medir la consistencia interna. La más común es el Coeficiente
α de Cronbach, una medida de la evaluación de relación entre todos los ítems.
Otra forma de medir la consistencia interna es el método de las dos mitades. Consiste en
dividir la escala en dos mitades que constituirán dos medidas equivalentes de la misma
característica. Estas dos mitades pueden ser elegidas de varias formas, por ejemplo, la
primera mitad con la última mitad de los ítems, incluso números pares con números
impares, o selección al azar de ítems de cada grupo. Este diseño plantea algunos
inconvenientes, ya que reduce el número de ítems evaluados mediante correlaciones. Por
ello se aplica un procedimiento donde se aplica la fórmula de Spearman-Brown
(aplicación del coeficiente alfa a la suma de ítems estandarizados).
Para cualquiera de estos diseños de fiabilidad interna, los coeficientes que exceden el
0.80 sugieren que la escala es generalmente consistente. Sin embargo, un coeficiente de
0.80 también significa que el 20% de la puntuación de la escala se debe a un error casual.
Así, cuanto mayor es el coeficiente de fiabilidad más confianza da al evaluador.
La fiabilidad test-retest…
La fiabilidad test-retest, o estabilidad, evalúa si una escala es estable con el tiempo. Si la
variable medida no ha cambiado, entonces las puntuaciones de una escala deberían de
ser similares a través de las diferentes administraciones, y la estabilidad debería de ser
alta. La fiabilidad test-retest es muy importante cuando una escala se utiliza para evaluar
el progreso del tratamiento. Si una escala no es estable, entonces es imposible
determinar si un cambio medido es real o representa un error casual en la escala.
Una correlación mayor de 0.80 para dos administraciones (con un intervalo temporal de
una a dos semanas) de una escala sugiere una estabilidad adecuada. Para las
administraciones con un intervalo superior a un mes, una correlación mayor de 0.70 se
considera una estabilidad razonable.
Fiabilidad Inter-jueces…
8
La fidelidad inter-jueces representa el acuerdo, o concordancia, entre los diferentes
informantes. Los informantes pueden incluir informantes no expertos, como los adultos
que son familiares con el joven, pero la fiabilidad inter-jueces es más relevante para
escalas basadas en síntomas que requieren un formato de entrevista estructurada. El
entrenamiento es necesario para asegurar que los múltiples evaluadores están puntuando
los ítems por igual, es decir, están utilizando la escala de forma consistente. Para evaluar
su concordancia, las correlaciones pueden realizarse entre las puntuaciones totales de la
escala así como los ítems individuales. De nuevo, las correlaciones mayores de 0.80 son
aceptables.
Fiabilidad paralela…
La fidelidad de formas paralelas también evalúa el acuerdo entre diferentes entidades,
pero esta vez entre dos formas de una escala. Cuando tales formas paralelas de una
escala existen, como las versiones del padre y el hijo o las versiones largas y cortas,
deben mantener la misma información y sus puntuaciones deben estar muy relacionadas.
Las correlaciones mayores de 0.80 apuntan una fiabilidad paralela correcta.
¿Qué es la validez?
La validez pertenece a si la escala evalúa adecuadamente lo que estaba diseñada para
evaluar. Es el grado en que una determinada inferencia a partir de una escala es
apropiada o significativa. Se trata pues, de determinar hasta que punto un test es útil para
extraer de él determinadas conclusiones. Esto es un aspecto importante para las escalas
que miden la psicopatología infanto-juvenil debido a la cuestionable validez de los
diagnósticos infantiles, los criterios diagnósticos cambiantes y la historia natural del curso
de los trastornos infanto- juveniles.
Existen tres tipos importantes de validez: contenido, criterio y validez de constructo.
9
Validez de contenido…
La validez de contenido evalúa si los ítems de la escala representan la entidad que se
está midiendo. Suele estar asegurada mediante la creación de ítems a partir de los
criterios diagnósticos o los síntomas del trastorno de interés o por medio del examen
cuidadoso de los niños y adolescentes con el trastorno. Existen dos aproximaciones
básicas con relación a esta validez: la validez externa y la validez lógica del contenido. La
validez externa hace referencia al poder de generalización de los resultados obtenidos. Es
determinada por el examen simple de los ítems y juzga subjetivamente si parecen estar
midiendo el área de contenido. La validez lógica de contenido es más sistemática. Hace
referencia a si la escala cubre el dominio de contenidos por completo, y si los ítems son
representativos de todas las áreas que deberían estar incluidas. Sin embargo, esta
información no siempre esta disponible.
Validez de criterio…
La validez de criterio ofrece una mayor profundidad que la validez de contenido. Está
basada empíricamente, evalúa la relación con otras escalas (con validez establecida) que
miden la misma característica. Las correlaciones con estas escalas proporcionan mayor
seguridad sobre si la escala mide lo que se supone que tiene que medir. Existen 2 tipos
de validez de criterio: la validez predictiva y la validez concurrente.
La validez predictiva determina si un test es útil para predecir el comportamiento futuro de
los individuos, para clasificarlos en un determinado grupo clínico o con relación a
cualquier otro criterio interesante.
La validez concurrente se refiere a la relación de una escala con un evento que es
evaluado al mismo tiempo que se administra la escala. Tiene a su vez dos tipos: la
convergente y la discriminante.
La validez convergente es la extensión hacia la cual la escala se relaciona con alguna
variable relevante teóricamente con la cual debe relacionarse, es decir, cuando dos
medidas distintas de la misma variable coinciden en los resultados.
La validez discriminante compara la puntuación de una escala para un grupo que es
conocido como poseedor del trastorno con un grupo que es conocido como no poseedor
del mismo. Si la escala es válida, entonces estos dos grupos deben tener diferentes
puntuaciones.
Validez de constructo…
La validez de constructo hace referencia al hecho de que la estructura de relaciones de la
escala es de la forma prevista por la teoría. Para considerar una escala como poseedora
de validez de constructo debe poseer validez discriminante y convergente. Así la validez
de constructo muestra que la escala converge y diverge de otras variables apropiadas.
10
La validez convergente y discriminante de una escala se evalúa utilizando un
procedimiento estadístico conocido como análisis factorial. Este deriva grupos de
variables que miden aspectos separados del trastorno. Si las variables son similares, se
relacionan con el mismo ítem, demostrando una validez convergente. Las variables no
asociadas con un ítem particular sugieren una validez discriminante. Alternativamente, la
validez factorial esta determinada por la evaluación de si los ítems individuales se
relacionan con la puntuación total de la escala y no se relacionan con las variables no
relacionadas.
Durante la interpretación de escalas, la fiabilidad se determina en primer lugar. La
habilidad de la escala para actuar de manera similar en cada ocasión debe ser asegurada
para evaluar su habilidad para medir una interpretación. En otras palabras, el error del
azar debe ser minimizado para detectar cualquier error sistemático en la escala. Así, para
ser válida, una escala debe ser de alguna forma fiable. No en cambio al contrario.
Ninguna escala es completamente fiable y válida.
11
¿Qué factores debemos tener en cuenta al seleccionar una escala?
Para elegir la mejor escala, varios factores deben tenerse en cuenta:
La estabilidad.
La utilidad, que representa las ventajas prácticas que la escala ofrece y esta influenciada
por el cómo de útil será la información y cómo de fácil su utilización.
La adecuación, entendida como una estimación de la propiedad de la escala para las
habilidades del joven. Una escala desarrollada para un adolescente no será aplicable para
un joven en tercer grado con una incapacidad en el aprendizaje.
La reactividad, que se refiere a como el acto de medir algo puede cambiarlo. Esto puede
ser deseable para algunas intervenciones en las que la medida tiene la intención de
provocar un cambio de comportamiento pero no es deseable con las escalas de
evaluación que sólo intentan observar el cambio a partir del tratamiento.
La apropiación se refiere a cómo de compatible es una escala con la evaluación deseada.
Las escalas más apropiadas son válidas, estables y sensibles; miden el problema de una
forma directa y no reactiva; tienen utilidad y son adecuadas.
12
Descargar