CONSULTA Y VALORACIÓN PSICOLÓGICA EN NIÑOS Y ADOLESCENTES ¿Qué es un test psicológico? Los tests psicológicos ofrecen medidas objetivas del comportamiento y/o actividades derivadas de una situación "similar al laboratorio". Son particularmente útiles para evaluar el estado cognoscitivo o emocional actual, lo que ha aprendido una persona, y/o su proceso de pensamiento. A diferencia de las escalas de evaluación, que proporcionan información directa (aunque subjetiva) sobre el funcionamiento del sujeto con su entorno, los tests psicológicos no miden actividad en el entorno natural y, sólo en raras ocasiones, proporcionan evidencia directa de la presencia o ausencia de síntomas psiquiátricos. Los datos de las pruebas se deben interpretar en el contexto de una evaluación clínica exhaustiva y no pueden, de manera aislada, proporcionar diagnósticos. Esto no significa que los tests psicológicos no sean útiles para determinar el diagnóstico o para esclarecer factores etiológicos. No obstante, dichas determinaciones normalmente requieren inferencias clínicas que van más allá de los datos de las pruebas. Los tests psicológicos suelen ser más útiles para evaluar aspectos del estado cognoscitivo y emocional de un niño que pueden tener implicaciones relevantes en el plan de tratamiento y no tanto en el diagnóstico diferencial propiamente dicho. ¿Cómo se interpreta un test psicológico? Los estudios de tests psicológicos pocas veces hacen referencia a puntuaciones brutas, que indican el número de ítems correctos (o número de errores). En su lugar, proporcionan puntuaciones que indican cómo se relaciona el rendimiento de uno con el de otros similares en las mismas medidas. Existen tres métodos comunes para estudiar el rendimiento en las pruebas psicológicas: • Puntuaciones de desarrollo, Los resultados más frecuentes son la "edad mental" y los "equivalentes de grado", aunque muchos tests proporcionan puntuaciones equivalentes a la edad. El poder básico de los puntajes de desarrollo es su aspecto descriptivo. Pero uno debe ser cauto cuando interprete las puntuaciones de desarrollo que, a diferencia de la edad cronológica, no se basan en una escala de razón ni incluso de intervalo de medidas. La unidad de medida de las escalas de desarrollo se acorta sistemáticamente con la edad. La actividad de un niño de 5 años de edad en un nivel de 3 años de edad puede suponer un deterioro notable, mientras que la actividad de un niño de 12 años de edad a un nivel de 10 años de edad puede ser sólo moderadamente inferior. La diferencia en el funcionamiento entre los 19 y los 17 años de edad puede ser despreciable. Así, a diferente edad, las discrepancias en los resultados del desarrollo significan cosas diferentes. Además, las puntuaciones de desarrollo ofrecen poca información sobre la variabilidad en la ejecución de la prueba, que suele variar a diferentes edades. 1 • Percentiles: Proporcionan un índice de dónde se sitúa uno en relación a los demás en una escala del 1 al 100. Es importante remarcar que una puntuación en el primer percentil de los 100 no significa que la persona haya realizado mal o bien todas las preguntas del test. Más bien, significa que el individuo lo hizo peor o mejor que los demás en el grupo de comparación. Si el grupo de comparación está formado por niños de edad similar, el puntaje en el percentil tiene la ventaja sobre las puntuaciones de desarrollo, de que los percentiles son una escala ordinal. La unidad de medida varía a lo largo del intervalo. Existe relativamente poca diferencia entre las puntuaciones de los percentiles 40 y 60, pero una diferencia de 20 puntos cerca de un extremo de la distribución puede ser importante. • Puntuaciones estandarizadas: Estas escalas no sólo tienen la ventaja de ser indicativas del rendimiento en relación a los demás, sino que la unidad de medida se mantiene constante a través del intervalo de puntuaciones. Las escalas de puntuaciones estándar refieren puntuaciones en unidades de desviación estándar (DE) de la media de la muestra normal. Algunos tests generan puntuaciones z, que directamente indican unidades de DE. Así, una puntuación z de 0 significa que el niño puntuó exactamente en la media de la muestra normal, una puntuación de +1.0 significa que el niño puntuó 1 DE por encima de la media, y una puntuación de -0.2 significa que el niño puntuó 0.2 DE por debajo de la media evaluada en la muestra normal. Muchos tests, sin embargo, no presentan puntuaciones z. En vez de ello, se utiliza una amplia colección de escalas de puntuación estandarizada que pueden interpretarse de la misma manera. Mientras una puntuación z refleja la ejecución en una escala con una media de 0 y una DE de 1, una puntuación de CI se basa en una escala con una media de 100 y una DE de 15 o 16. Por ello, para interpretar las puntuaciones estándar, debe conocerse la media y la DE de la escala en la que están basadas. Históricamente cuando se hacía un procedimiento sobre el paciente interno, los tests psicológicos frecuentemente formaban parte de un trabajo comprensivo y multidisciplinar dirigido a facilitar el tratamiento a largo plazo; en estas circunstancias las preguntas de consulta pueden contribuir a entender todo el conjunto del paciente. Los tests de datos están normalmente integrados con los hallazgos de otras disciplinas y se deben escoger cuidadosamente los tests para poder responder de forma específica a las cuestiones planteadas en la consulta. Una valoración psicológica más profunda a menudo tiene que aplazarse hasta el momento en el que el paciente se halla en un tratamiento menos restrictivo. Para poder articular de forma clara las fases de una evaluación global psicológica nos hemos basado en el curso típico de una consulta externa. Para asegurarnos que la valoración psicológica sea más eficaz el examen debe ser directo y específico. Unas preguntas referidas al niño apropiadas facilitan la elección del psicólogo de los instrumentos de tests específicos y en el análisis de los datos ayudan a determinar cuáles son los puntos relevantes. 2 Cuando no hay una guía de preguntas particulares, el examen frecuentemente cae en una información general que carece de la precisión necesaria para tener una utilidad clínica. Las preguntas referidas al niño para la valoración psicológica pueden agruparse en diversas áreas: ¾ Primera para los niños más pequeños el examen clínico psicológico ofrece respuestas a preguntas que inciden sobre el proceso de desarrollo. Muchas veces padres, pediatras, educadores y profesionales de la Salud Mental se forman falsas impresiones sobre la naturaleza y el nivel de desarrollo de los jóvenes. Los tests comparan el individuo niños con su nivel de edad y ofrecen un indicador fiable del nivel de desarrollo y permiten la subsanación y modificación de esas presunciones. Esta valoración es muy útil en la identificación de los trastornos del desarrollo y de las secuelas neuroconductuales. También detectarla necesidad de intervenciones rápidas que pueden mejorar de forma importante la calidad de vida a largo plazo del niño y su familia. ¾ Segunda para los niños en edad escolar y adolescentes, los test psicológicos ofrecen una estimación fiable de la capacidad intelectual que aquella que ofrece la impresión clínica. Frecuentemente una estimación clínica del nivel de inteligencia del niño puede estar basada sobre una autopresentación engañosa. Conductas interpersonales pueden confundir o disturbar si éstas parecen discrepantes con el aparente nivel de inteligencia de la persona, esto se ejemplifica cuando una habilidad verbal de un joven es muy diferente de sus otras habilidades intelectuales. La valoración intelectual también sirve como base de evaluación para otras áreas de funcionamiento. La capacidad intelectual se define como la medida más importante de inteligencia y es también la característica y la interacción de diversos subdominios específicos. Los tests psicológicos tienen una contribución importante en la atención clínica para sacar a relucir los puntos fuertes y débiles del niño y para identificar los caminos en los cuales ellos manifiestan su conducta. En el trabajo clínico con niños y adolescentes es muy frecuente y útil comparar y contrastar medidas de inteligencia con los resultados individuales académicos. Un apropiado resumen del rendimiento académico con valoraciones del nivel de lectura, aritmética, lenguaje escrito y hablado permite al psicólogo al comparar estos test académicos con los de inteligencia responder a las preguntas referidas al niño sobre la presencia de discapacidades en el aprendizaje. Es de esperar que los niveles de rendimiento académico puedan equipararse con el nivel de inteligencia (Kaufman and Kaufman, 1983; Sattler, 1988). Cuando estos niveles son inconsistentes con el rendimiento académico ( que son altamente significativos con los niveles de intelectuales) es que la persona realiza un esfuerzo extremo para conseguir los objetivos educacionales. también es posible, aunque menos común que el potencial intelectual verdadero de la persona es mayor que su inteligencia. En contraste cuando los niveles del rendimiento académico son significativamente más bajos que los niveles de inteligencia, se puede considerar que el niño tiene una dishabilidad para el aprendizaje en una o varias áreas del funcionamiento académico. 3 Es muy importante notar que el diagnóstico de la discapacidad del aprendizaje denota una no nacida información, dificultades para procesar problemas que requieren unas técnicas de educación especial particulares. En casos de dishabilidades del aprendizaje los resultados de los tests psicológicos son las bases para programar las recomendaciones educacionales a seguir. La valoración clínica psicológica conciernen a la psicodiagnósis adolescentes. El uso de los tests proyectivos y hacen que sea posible esclarecer ayudar al diagnóstico. también debe responder a las preguntas que y al tratamiento psicoterapéutico de niños y de indicadores proyectivos en otros instrumentos posibles áreas específicas de psicopatología para Un diagnóstico diferencial muy específico debe considerarse a través de la documentación obtenida ya que da matices de lo que es un adolescente con un trastorno del pensamiento o uno con trastorno afectivo, o diferenciar entre un funcionamiento psicótico y una ansiedad extrema en un niño pequeño. Cuando el diagnóstico se ha establecido la valoración psicológica puede también asistir el tratamiento, ya que puede ayudar a la selección del tipo de terapia a realizar. La información que concierne a la integridad de los procesos mentales del niño puede ayudar a determinar el nivel apropiado de la actividad de soporte terapéutico para proporcionar el insight psicológico del mismo (Pine, 1985). Los resultados de los test pueden ayudar a predecir el curso del tratamiento y los datos referentes a cómo los jóvenes han respondido al test pueden ayudar a ver cómo será la respuesta de éstos a la hora de desarrollar la alianza terapéutica. Frecuentemente la valoración psicológica identifica las características del paciente que son menos fáciles de observar al inicio y por tanto se prestará atención a éstos aspectos. Esta identificación puede ser de ayuda para esclarecer la severidad de los problemas que son considerados previamente como menos serios o que han permanecido sin reconocer. Los tests psicológicos son también útiles para constatar consideraciones prácticas sobre la disposición a la hora de elegir el planteamiento y programa de tratamiento. Varios programas designados a conocer las necesidades especiales de ciertos niños y adolescentes como son las clases para superdotados intelectualmente, o los servicios para los niños con retraso requieren documentación sobre su necesidad basada en los resultados de la valoración psicológica. ¿CÓMO DEBE LLEVARSE A CABO LA PREPARACIÓN DEL PACIENTE Y DE LOS PADRES? Para un desarrollo útil de los tests psicológicos el paciente el debe estar preparado adecuadamente. Con niños y adolescentes la preparación empieza por los padres. Cuando la petición de los tests proviene de otros profesionales de salud mental o educadores la preparación debe ser iniciada por el profesional requerido y debe ser completada por el psicólogo. La propuesta del tests debe ser explicada a los padres de forma clara, las preguntas de consulta debes ser abordadas en un lenguaje no técnico para que se pueda conseguir una buen comprensión de la necesidad de éstos. 4 El clínico requerido deberá clarificar su relación con el paciente y los padres, aparte del trabajo con el psicólogo que realizará los tests. si el profesional requerido continuará trabajando con el niño y la familia después del test se deberá también poner de manifiesto. La preparación del paciente sigue a la de sus padres. Éstos deberán ser animados a compartir la información prepaparatoria con sus hijos y deberán presentar la información de una manera honesta y abierta y sobretodo teniendo en cuenta la edad de desarrollo del niño o del adolescente. En algunos casos es de mucha ayuda que el clínico asista con los padres en esta tarea. Muchos factores deben ser enfatizados, primero se tiene que subrayar que el test está dirigido para proporcionar una ayuda interpersonal o educacional para el niño o el adolescente y que no sea algo punitivo, luego con los niños pequeños es de ayuda asegurar al paciente que el psicólogo es un “doctor del habla” y que no hará ninguna actuación física invasiva. Cuando el paciente está completamente preparado normalmente conoce al psicólogo por primera vez con una considerable ansiedad y puede negar a recibir alguna información sobre la valoración para ser completada. Como una parte necesaria del establecimiento de la relación el psicólogo debe reiterar la información preparatoria instruyendo al niño sobre los procedimientos del test. Cabe destacar que una preparación cuidada, con el establecimiento de la relación inicial da el suficiente confort para que los más jóvenes cooperen fácilmente en una recolección fiable de datos en los tests. ADMINISTRACIÓN DE LOS TESTS Composición de la batería Después de clarificar la consulta el psicólogo infantil se encara hacia el trabajo de decidir qué instrumentos comprenderán la batería de valoración. El psicólogo deberá obtener el mayor y mejor número de datos contando con las variables que presenta el niño, como son sus capacidades para entender los rigores del test y las variables de desarrollo del funcionamiento del niño y dominios de aquello que se valora. Los psicólogos deben ajustar la batería de tests a la consulta para que ofrezca detalles de la misma o también sugieran nuevas. Por ejemplo: Si las medidas de screening del rendimiento académico de un niño indican déficits en la adquisición o un grado inapropiado en la habilidad lectora, un examen más intensivo se deberá realizar para especificar si los déficits se atribuyen más a problemas de decodificar lo que se lee o a la comprensión lectora. Administración El tiempo que necesita un niño para completar la batería de tests depende de varias variables, incluyendo la complejidad de la petición de consulta y el número asociado de instrumentos, así como en la capacidad del niño para trabajar a buen ritmo en las tareas requeridas y la cooperatividad familiar en acudir a las del estudio. 5 Aproximadamente para la administración de la batería psicoeducacional que la consulta requiere son necesarias entre 4 y 6 sesiones de aproximadamente 60-90 minutos cada una. El objeto máximo del tests es generalmente obtener una imagen detallada de las capacidades máximas del niño, el psicólogo debe estar seguro en la relación con el chico que éste ha dado su máximo esfuerzo. Para cumplir este objetivo el examinador emplea habilidades clínicas usadas por el clínico en la evaluación del niño que sirven para rebajar la ansiedad el niño y conseguir su cooperación para completar las tareas. Al mismo tiempo el clínico deberá tener en mente el distinguir entre la empresa de valorar las principales marcas psicológicas de aquellos datos que se obtienen en un lugar estructurado usando medidas estandarizadas apropiadas. El psicólogo, también, al establecer la relación deberá no violar los procedimientos estructurados que permiten la comparación de los resultados de la actuación del niño con las normas ejemplificadas. Datos psicométricos Existe una extensa literatura de los principios técnicos y metodológicos asociados a la valoración psicológica (Anastasi 1988, Satter, 1988). Para juzgar la utilidad de los instrumentos de valoración se deben consideran la validez, la fiabilidad y la estandarización. Validez En el resumen de los estandars del test psicológico y educacional (American Psychological Associaton, 1985) encontraron que los varios métodos para determinar la validez se organizan en tres grupos principales: Un instrumento posee una validez del contenido relatado si el contenido del ítem cubre un ejemplo representativo del dominio a seguir, un dato típicamente considerado en los tests de evaluación del rendimiento. Si un instrumento es efectivo en predecir la actuación de una persona en una actividad específica se dice que posee una validez de criterio relatado. Esta forma de validez está determinada por la actuación de los tests de checking en contra de una valoración directa e independiente de los criterios de medida de los cuales el test supuestamente mide, por ejemplo, la comparación de los resultados de la aptitud escolar con las notas obtenidas en el colegio. Finalmente, la validez del constructo relatado se refiere a la capacidad del test para medir un constructo teórico-ético en el que éste se basa derivado de los interrelaciones documentadas a través de las conductas medidas. Esta forma de validez requiere la acumulación varios tipos de información, incluyendo correlaciones con otros tests y técnicas estadísticas como son el factor de análisis y las medidas de consistencia interna del test. Fiabilidad Un instrumento fiable se refiere al grado en que los resultados obtenidos por el instrumento pueden ser reproducidos con aceptables niveles de acuerdo. Las medidas de consistencia más comunes requeridas por los tests psicológicos son aquellas puntuaciones que pueden reproducir a través del tiempo ( test-retest fiabilidad) y entre examinadores (interdatos fiabilidad). 6 Una estimación adicional de la fiabilidad que frecuentemente se reporta es la consistencia interítem o la consistencia de las respuestas de todos los ítems del test. Esta forma de validez proporciona información sobre el grado de homogeneidad de la demanda en que el test está propuesto para ejemplificar y es típicamente representado en la forma de los coeficientes de fiabilidad ( como los coeficientes de Kunder-Richarson y las respuestas dicotómicas del coeficiente de Cronbach para respuestas continúas). Estandarización Para estar bien estandarizado un test debería presentar una gran y demográficamente representativa muestra de sujetos. La comparación de las actuaciones hechas por los chicos en un test con un grupo apropiado estandarizado puede darse sólo si esa comparación ha sido contrastada con otros grupos. Estas comparaciones proporcionan un contexto para entender la actuación del niño en el test desde una perspectiva informada del desarrollo y permite más inferencias sobre las habilidades y déficits documentados en el trastorno del niño. Loa test de valoración más usados comúnmente están organizados de acuerdo al dominio a valorar: habilidad intelectual, rendimiento académico, funcionamiento motorvisual, conducta adaptativa, capacidad atencional, organización de la personalidad, funcionamiento neuropsicológico y estado de desarrollo. A continuación vamos a destacar algunos de los tests que con mayor frecuencia se utilizan hoy en día. Vamos a agruparlos según el dominio que valoren los mismos. MEDIDAS DE LA HABILIDAD INTELECTUAL ¿Cómo se evalúa la inteligencia? Los tests de inteligencia normalmente proporcionan una estimación de la actividad cognoscitiva global así como información sobre el funcionamiento en áreas más específicas. Comparadas con medidas de otros rasgos humanos, las puntuaciones de los tests de inteligencia son bastante estables. No obstante, el grado de estabilidad aumenta con la edad, de forma que las medidas del funcionamiento intelectual durante la infancia temprana y preescolar predicen menos el funcionamiento posterior que las evaluaciones que se realizan durante la etapa media de la niñez. Además, pese a su relativa estabilidad, las puntuaciones en tests de inteligencia pueden cambiar en función de factores ambientales importantes. Por tanto, estas puntuaciones son descriptivas de un funcionamiento del niño en un momento puntual. Pueden cambiar con alteraciones en el estado psiquiátrico del niño, en las situaciones ambientales o con un programa educativo. Las escalas Wechsler… Las escalas de inteligencia de Wechsler son las más conocidas entre los tests de inteligencia. Hay tres tests de inteligencia de Wechsler diferentes que son estructuralmente similares pero difieren en cuanto al intervalo de edad objetivo. 7 • La escala Wechsler revisada de inteligencia para niños en edad preescolar y primaria (WPPSI-R) (Wechsler, 1989) es la versión más reciente del test normalizado para edades entre 3 y 7.3 años; • La tercera versión de la escala Wechsler de inteligencia para niños (WISC-III) (Wechsler, 1991) está normalizada para edades entre 6 y 16 años, 11 meses; • La tercera edición de la escala Wechsler de inteligencia para adultos (WAIS-III) (Wechsler, 1997) está normalizada para edades comprendidas entre los 16 y 74 años. Escala de inteligencia de Wechsler para niños 3ª Edición Como sus otros dos predecesores el WISC (Wechsler, 1949) y el WISC-R (Wechsler, 1991) y su extensión a las escalas de inteligencia para adultos (Wechsler, 1955, 1981), esta revisión, publicada en 1991, es la más utilizada para valorar de forma individual la inteligencia en niños en edades comprendidas entre los 6 a los 16 años y 11 meses. El WISC-III consiste en 13 subtests divididos en 6 subtests verbales y 7 subtests manipulativos. La escala verbal está compuesta de las siguientes pruebas: Información, Semejanzas, Aritmética, Vocabulario, Comprensión y Dígitos. La escala manipulativa está compuesta de las siguientes pruebas: Figuras incompletas, Historietas, Cubos, Rompecabezas, Claves y Laberintos, Búsqueda de símbolos. El tiempo de administración es de entre 60- 90 mimutos. El instrumento de construyó a partir de la noción de que la inteligencia está definida como la capacidad total de una persona para entender y adaptarse al mundo (Wechsler, 1991). El autor enfatiza que esta definición requiere un instrumento de valoración que aprecie la naturaleza global de la inteligencia y evita enfatizar una única habilidad para valorar la capacidad total intelectual. Las tareas de los subtests valoran las habilidades del niño en una gran variedad de caminos para ofrecer una estimación más completa de la capacidad. Las tareas requieren al niño que responda a requerimientos verbales y que trabaje diferentes tipos de capacidades visuales o que realice tareas visuales motoras como los rompecabezas. Los tests generan una escala completa de inteligencia tanto Verbal como Manipulativa que ofrece un CI para más información se puede consultar el manual (Wechsler, 1991). Los factores que se miden son: Comprensión verbal ( Subtests: Información , Semejanzas, Vocabulario y Comprensión) Organización perceptiva ( Rompecabezas, Historietas, Figuras incompletas y cubos) Distractibilidad ( Aritmética y Dígitos) Velocidad en el procesamiento ( Claves, Búsqueda de símbolos). La interpretación del test protocolo requiere niveles de análisis (Kaufman 1979, Sattler, 1988) incluyendo puntuaciones del CI Global para conocer el rango de funciomaniento intelectual. 130 y más Muy Superior 120-129 Superior 110-119 Normal-Alto 8 90-109 Medio 80-89 Normal-bajo 70-79 Inferior 69 y menos Deficiente mental WAIS-III Escala de inteligencia para adultos de Wechsler Publicado en 1997 (Wechsler, 1997a). El WAIS-III mantiene las formulaciones del WAIS original, pero ofrece más datos normativos actuales. El formato WAIS-III es similar al WISC-III ofreciendo resultados del CI a nivel Verbal y Manipulativo y Global. Comprensión Verbal, Organización perceptual, memoria de trabajo y velocidad de procesamiento. Indice global se basa en el resultado de 14 subtests: 11 subtests son los mismos que el WAIS-R y tres son nuevos. Como el WISC-III, el WAIS-III ahora también tiene el subtests de búsqueda de símbolos que mide la eficiencia del scanning visual y el reconocimiento visual. El WAIS III incluye: Información, Semejanzas, Aritmética, Vocabulario, Comprensión, Dígitos, Letras y números, Figuras incompletas, Historietas, Cubos, Rompecabezas, Claves, Matrices y Búsqueda de símbolos. El subtest de matrices es un subtest de inferencias no verbales, sobre de habilidad de razonamiento. La secuencia de Letras y números mide la atención auditiva y memoria de trabajo. Como el WISC-III el WAIS-III tiene una excelentes propiedades estadísticas. El WAIS-III está indicado para edades comprendidas entre 16 y 89 años y puede también emplearse en adolescentes mayores de 15 años. Hay un lapso entre el WISC-III y el WAIS-III ( 16 años y 16 años y 11 meses) Para niños normales y superdotados los dos instrumentos ofrecen unas muestras adecuadas. La Escala de Inteligencia de Wechsler papa Preescolares y Escuela Primaria (WPPSI-R) La Escala de Inteligencia de Wechsler para Preescolares y Escuela Primaria (WPPSIR) publicado en 1989 (Wechsler, 1987) es una revisión del original WPPSI (Wechsler, 1967) y es una extensión de las escalas de Wechsler utilizadas para niños de edades comprendidas entre 3 y 7 años y 3 meses. En esta escala se añade un nuevo subtest de los 11 subtests del WPPSI original este es el de Ensamblaje de objetos. La escala verbal está compuesta de las siguientes pruebas: Información, Semejanzas, Aritmética, Vocabulario, Comprensión y Frases. La escala manipulativa está compuesta de las siguientes pruebas: Casa de los animales, Figuras incompletas, Dibujo geométrico, Cuadrados, Laberintos, Retest Casa de los animales. 9 Los nuevos ítemes y cambios en el diseño han sido realizados para favorecer el interés de los niños pequeños, siendo para ellos más cercano. Escalas de McCarthy de Aptitudes y psicomotricidad para niños MSCA Las Escalas de McCarthy de Aptitudes y psicomotricidad para niños MSCA (McCarthy, 1972) son un instrumento formidable para una valoración adecuada y apropiada de niños en edades comprendidas entre 2 años y 6 meses a 8 años y 7 meses. Sus 18 subtests forman parte de 5 dominios: Construcción con cubos, Rompecabezas, Memoria pictórica, Vocabulario I y II, Cálculo, Secuencia de golpeo, Memoria verbal I, Memoria verbal II, Orientación izquierda-derecha ( 5años o más), Coordinación de piernas, Coordinación de brazos I+II+III, Acción imitativa, Copia de dibujos, Dibujo de un niño, Memoria Numérica I, memoria numérica II, Fluencia verbal, Recuento y distribución, Opuestos y Formación de conceptos. Estos subtests nos ofrecen la capacidad del niño a nivel: Verbal, Perceptivo-Manipulativa, Numérica los resultados de los tres dominios no ofrecen un Índice General Cognitivo y los otros dos dominios que se exploran son: Memoria y Motricidad. También resulta de la pasación de las escalas la Lateralidad del niño dándonos a conocer la dominancia manual y ocular de éste. Batería Kaufman para la evaluación de niños La batería Kaufman para la evaluación de niños (K-ABC) (Kaufman y Kaufman, 1983a) fue diseñada con fines similares a los de los tests de Wechsler y Stanford-Binet. Sin embargo, la K-ABC se basa en una orientación teórica que establece una distinción entre la información que se procesa a través de procesamiento simultáneo frente al procesamiento secuencial (Kaufman y Kaufman, 1983b). El procesamiento simultáneo se utiliza en información que se presenta íntegramente o como un todo. El procesamiento secuencial se utiliza en información que se presenta temporal o sucesivamente. En general, los subtests de Simultáneo son tareas perceptivas que se presentan visualmente, mientras que las tareas de Secuencial suelen implicar más procesamiento verbal, memoria y/o movimientos secuenciales. Como tal, podría afirmarse que el modelo no se ajusta particularmente bien a la práctica y que la distinción entre las escalas puede estar relacionada más con la modalidad que con el proceso. El test, que está normalizado para edades entre los 2.5 y 12.5 años, genera un Índice cognoscitivo general junto a puntuaciones separadas para el procesamiento simultáneo, el procesamiento secuencial y el rendimiento. Estas puntuaciones están estandarizadas con una media de 100 y una DE de 15. Las puntuaciones del subtest separadas para las escalas simultáneo y secuencial están normalizadas en una media de 10 y una DE de 3, mientras que el subtest de rendimiento se ha normalizado en una media de 100 y una DE de 15. Además de esta orientación teórica distinta, el K-ABC difiere de las escalas Wechsler y Stanford Binet en otros aspectos: 10 • Los ítems tienden a ser más coloreados, orientados a los niños, y estimulantes para los niños. • Una diferencia importante se encuentra en la manera en que se presentan los subtests. Igual que otros tests, cada subtest está precedido de unas instrucciones cuidadosamente expresadas con palabras para el niño. A diferencia de otros, sin embargo, el manual del K-ABC recomienda al examinador que utilice los ítems iniciales para enseñar al niño lo que debe hacer si lo que pide la tarea (en contra del contenido del material) no se ha entendido con claridad. • La naturaleza de los subtests son diferentes; son más "neuropsicológicos". Es decir, son más específicos para procesos específicos. • Este test se diferencia del WISC-III y del Stanford Binet-IV en que sus dos escalas cognitivas (secuencial y simultáneo) requieren mínimas habilidades del lenguaje por parte del niño. Como tales, las puntuaciones no suelen estar influidas por factores culturales o lingüísticos. Las dos escalas Kaufman desarrolladas más recientemente son el Test Kaufman de inteligencia para adolescentes y adultos (KAIT) (Kaufman y Kaufman, 1993) y el Test Kaufman breve de inteligencia (K-BIT) (Kaufman y Kaufman, 1990). El KAIT, desarrollado para edades comprendidas entre los 11 y los 85 años, distingue entre capacidades cristalizadas y capacidades fluidas. Las cristalizadas están relacionadas presuntamente con lo que uno ha aprendido, a través de su ambiente o su escolarización, mientras que las capacidades fluidas se relacionan con la capacidad propia para resolver problemas nuevos. Hasta la fecha sólo se han llevado a cabo estudios limitados sobre la validez de este instrumento y no está traducido ni adaptado al español. Una característica de este test es la naturaleza de los subtests y los ítems, que generalmente son únicos en carácter y de mayor interés para muchos adultos que los ítems en otras pruebas de inteligencia. El K-BIT es un instrumento de "screening" diseñado para estimar la actividad intelectual para edades comprendidas entre los 4 y los 90 años. Está compuesto por un test de Vocabulario, que se divide en "Vocabulario expresivo" y "Definiciones" y un subtest separado de "Matrices". El alcance limitado de este test lo hace menos atractivo como instrumento clínico. Puede ser útil para estudios de investigación en los que se requiera la evaluación rápida de la actividad cognoscitiva general para caracterizar a la muestra. Escala de inteligencia de Stanford-Binet La cuarta edición de la Stanford-Binet (SB-IV) (Thorndike y cols., 1986) representa varios avances sobre las versiones anteriores de este test pionero de inteligencia. Al igual que los tests de Wechsler, el SB-IV es un test que se administra individualmente y que requiere un amplio entrenamiento para administrarlo. Está normalizado para edades entre 2 años y la edad adulta, permitiendo evaluar niños más jóvenes que lo que permitía el WPPSI-R. El SB-IV está compuesto de 15 tests que se dividen en cuatro áreas cognoscitivas: razonamiento verbal, razonamiento abstracto-visual, razonamiento cuantitativo, y memoria a corto plazo. No obstante, los 15 tests no abarcan el intervalo de edaddificultad del SB-IV. Así, no se administran todos los 15 tests a un sujeto. El SB-IV dejó de utilizar el término "CI" y generó el término "Puntuaciones de edad estándar" con una media de 100 y una DE de 16 para cada una de las cinco áreas cognoscitivas y una puntuación compuesta. Las puntuaciones estándar de edad para los subtests individuales tienen una media de 50 y una DE de 8. Los datos normalizados del SB-IV son bastante buenos, los coeficientes de fiabilidad son excelentes, y los datos de validez indican elevadas correlaciones con otros tests de inteligencia, con versiones más antiguas que la Stanford-Binet, y con medidas de 11 rendimiento académico. Es una prueba excelente, normalizada, especialmente útil para evaluar a niños con capacidad ya que su techo está bastante alto. Sin embargo, al igual que las escalas de Wechsler, se muestra poco sensible a la evaluación de los diversos niveles de retraso mental, sobre todo en los grupos de edades más jóvenes. Así mismo, es una escala no traducida ni adaptada al español. ¿Cómo evaluamos la inteligencia de los bebés? Algunos de los tests que se han descrito anteriormente son adecuados para evaluar a niños en edad preescolar, pero ninguno es adecuado para bebés. Las Escalas Bayley del desarrollo del bebé (Bayley), que es la más utilizada para evaluar a bebés consta de tres subescalas: • Escala mental: Evalúa la capacidad de respuesta a la estimulación ambiental, así como un conjunto de capacidades sensorio-perceptivas, memoria, aprendizaje y lenguaje y comunicación tempranas. • Escala motora: Evalúa habilidad motora fina y gruesa. • Escala de evaluación conductual: No es un test psicológico objetivo, sino una escala de varias conductas en las que el clínico basa la información recabada del padre y de sus propias observaciones. La Bayley se ha normalizado. Las escalas Mental y Motora tienen diferentes puntuaciones estandarizadas con una media de 100 y una DE de 15. La Escala de evaluación conductual tiene una puntuación en percentiles que se traduce en una de las tres categorías: no óptimo, cuestionable o dentro de los límites normales. Como ya se ha comentado, la estabilidad de la actividad cognoscitiva aumenta con la edad. Como tal, la capacidad predictora de la Bayley es limitada. Este instrumento debe utilizarse para evaluar el nivel actual del desarrollo, no para predecir el potencial posterior. Así, para niños en el intervalo "normal" este test proporciona sólo una utilidad limitada. Sin embargo, entre la población que siempre va creciendo de niños de "alto riesgo" (debido a complicaciones pre o perinatales, abuso de sustancias, prematuros), este instrumento puede ser muy valioso para evaluar la actividad actual y determinar las estrategias de intervención temprana. 12 ¿Cómo evaluamos el retraso mental? Durante las últimas décadas, los cambios conceptuales y políticos han tenido un efecto importante en la evaluación del retraso mental. De especial relevancia en este punto es la idea de que los tests de inteligencia solos no se pueden utilizar para diagnosticar un retraso mental. Antes bien, es esencial utilizar una medida de capacidad funcional además del test de inteligencia. Pese a ser una práctica habitual considerar que una persona con una puntuación 2 DE por debajo de la media en un test de inteligencia está retrasada mentalmente, dichos individuos varían considerablemente en cuanto a su grado de deterioro funcional. Además, muchos tests de inteligencia tienen problemas con su efecto a nivel inferior. Como tales, carecen de sensibilidad en diferentes grados de retraso mental. Existen dos instrumentos que son particularmente útiles para la evaluación de personas con retraso mental: • Escala Vineland de la Conducta Adaptativa (Sparrow y cols., 1984) • Escalas de Conducta Adaptativa de la American Association of Mental Retardation (Lambert y cols., 1993). Estas escalas valoran capacidad funcional en un amplio margen de áreas que incluyen las habilidades de la vida diaria, habilidades en la comunicación y socialización. Existen varias versiones de estas escalas, pero las que más se administran son las entrevistas semiestructuradas a un cuidador. Están normalizadas, presentan buenos índices de fiabilidad, validez y generalmente son bastante más útiles para establecer un plan de tratamiento para los retrasados mentales que los tests de inteligencia estandarizados. ¿Cómo evaluamos a los sujetos con déficits sensoriales? La sociedad cada vez se ha ido haciendo más consciente de las necesidades de las personas con discapacidades físicas y ha facilitado avances en las pruebas psicológicas para este tipo de personas. La evaluación de niños con problemas auditivos es complicada no sólo por su pérdida sensorial, que puede realizarse oralmente presentado ítems verbales en un formato escrito, sino también por el déficit del lenguaje que suelen acompañar a la pérdida auditiva temprana. Una manera de abordar esta complicación es utilizar los subtests del componente manipulativo de varios tests de inteligencia. Sin embargo, la validez de estas escalas se ha estudiado muy poco en esta población. Un método más adecuado puede ser el uso del “Hiskey Nebraska Test of Learning Aptitude” (Hiskey, 1966). Este test fue desarrollado y estandarizado en muestras de niños con deterioro auditivo y niños con una audición adecuada, y se ha normalizado para edades comprendidas entre los 3 y los 17 años. El test, en el que no se controla el tiempo, evalúa un amplio intervalo de funciones cognoscitivas. Las instrucciones se presentan utilizando básicamente la pantomima y ejercicios prácticos. La evaluación de individuos con déficit visual suele realizarse mediante el uso de tests verbales -y eliminación de los de manipulación- extraídos de los tests estándar de inteligencia. Por ejemplo, las escalas Wechsler se han modificado para examinados ciegos eliminando la escala Manipulativa y los pocos ítems de la escala Verbal que requieren de la visión. Se han realizado diversas adaptaciones de la Stanford-Binet y se han validado en individuos con deterioro visual. 13 ¿Cómo evitar las influencias culturales? El uso de tests psicológicos en niños de diversas culturas ha aumentado en los últimos años. Aunque ningún test está libre de las influencias culturales, se ha intentado elaborar tests independientes de la cultura. Estas pruebas limitan o evitan totalmente el uso del lenguaje, el tiempo, la lectura y estímulos que pueden ser más familiares en una cultura en comparación con otra. Como ya se ha señalado, el K-ABC utiliza menos lenguaje que el WISC-R y puede tener mayor validez con niños que provienen de entornos de habla no española. Por el contrario, el Leiter International Performance Scale-Revised (Roid y Miller, 1997) es un test que no depende del tiempo, validado en edades entre los 2 y 20 años, y se administra utilizando básicamente instrucciones no verbales. Cada grupo de ítems comienza con un simple ejemplo que se realiza mediante mímica. Esta versión revisada cubre cuatro áreas de actividad: Razonamiento, Visualización, Atención y Memoria. A diferencia de su predecesor, el Leiter revisado genera puntuaciones estandarizadas en lugar de las puntuaciones CI más groseras. Otro test que está relativamente libre de sesgos culturales son las Matrices progresivas de Raven (Court y Ravens, 1995). Esta prueba tiene tres formas, dos de ellas adecuadas para su uso en niños: las matrices progresivas coloreadas (normalizado para edades entre los 5.5 y los 11.5 años) y las matrices progresivas estandarizadas (normalizadas para edades entre 6 y 80 años). Las Matrices de Raven se administran en un formato de múltiple elección. El test comienza con una simple discriminación visual y gradualmente se va complicando en analogías perceptivas y problemas de razonamiento. Las Matrices de Raven no dependen del tiempo y pueden administrarse sin utilizar el lenguaje. ¿Qué son los tests de rendimiento académico? Los tests de rendimiento académico tienen múltiples usos, entre los que se encuentran la asignación a cursos, la identificación de necesidades especiales para remediarlas, y la evaluación de progresos. Las baterías de rendimiento general, de elevada cualidad, administradas en grupo se administran normalmente en las escuelas. Se trata de pruebas normalizadas y con excelentes propiedades psicométricas que suelen ser muy útiles para identificar a niños con déficits educativos. No obstante, es necesario administrar tests de rendimiento académico en niños con problemas cognoscitivos, emocionales y/o de aprendizaje porque estas características suelen tener un impacto negativo en la ejecución del niño cuando se administra en grupo. Además, la evaluación individualizada, que está minuciosamente estructurada y observada por el clínico, permite proporcionar una evaluación más detallada de la naturaleza de los problemas del niño en un perfil de potencialidades y debilidades. Por último, la evaluación individualizada es muy útil para determinar la presencia de una discapacidad en el aprendizaje y para subrayar deficiencias específicas relacionadas con el rendimiento que pueden tenerse en cuenta en el tratamiento. Hay muchos tests normalizados de rendimiento académico. La Batería de Aptitudes para el Aprendizaje Escolar, BAPAE (Mª V. de la Cruz), ofrece una primera evaluación de aspectos aptitudinales (verbal, numérico y perceptivo) que se consideran importantes para el aprendizaje en las edades a que se destina (6-8 años). Existe también la AEI, aptitudes en educación infantil (Preescolar-2), (Mª V. de la Cruz), la cual resulta de gran importancia para establecer un pronóstico de las posibilidades de llevar con éxito la tarea del aprendizaje. Evalúa aptitudes verbales, cuantitativas, espaciales, memoria y visomotricidad mediante tareas diversas y atractivas que son percibidas por los niños como un juego. En las áreas de rendimiento, los tests evalúan no sólo el nivel de funcionamiento, sino también los procesos subyacentes tales como habilidades para abordar palabras, comprensión lectora, identificación de letras-palabras, vocabulario y habilidades de escritura. Para la evaluación de estas áreas existen diversos tests. 14 La Batería de Evaluación de los Procesos Lectores de los Niños de Educación Primaria, PROLEC (F. Cuetos, B. Rodríguez y E. Ruano, 1996), evalúa la capacidad global lectora del niño y las distintas estrategias utilizadas en el proceso de comprensión lectora, así como los mecanismos, que por un funcionamiento deficiente, son responsables de una mala lectura en el niño. Consta de 10 pruebas agrupadas en cuatro apartados que corresponden a los procesos que intervienen en la comprensión del material escrito: Identificación de letras, Reconocimiento de palabras, Procesos Sintácticos y Procesos Semánticos. Se aplica de forma individual y abarca los cursos de 1º a 4º de Educación Primaria. Junto al diagnóstico ofrece un conjunto de orientaciones de cara al tratamiento de los problemas concretos que hayan sido detectados con la aplicación. Existe también el PROLEC-SE, para la evaluación de los procesos lectores en niños de 10 a 16 años. El Test de Análisis de la Lecto-Escritura, TALE (J. Toro y M. Cervera) evalúa el nivel general y las características esenciales del aprendizaje de la lectura y la escritura. Su aplicación es individual y abarca a alumnos de los cuatro primeros cursos de Primaria (de 6 a 10 años). Existe una adaptación catalana: TALEC. MEDIDAS PARA VALORAR LA CONDUCTA ADAPTATIVA Medidas de atención y concentración Se ha incrementado recientemente la investigación y la atención clínica con el ánimo de obtener un mayor conocimiento del ADHD. Los avances en el reconocimiento de este trastorno han sido acompañados por la necesidad de obtener datos de tests psicológicos para poder ayudar en el diagnóstico diferencial. Frecuentemente los psicólogos clínicos confirman el diagnóstico de ADHD a través de indicadores que se ponen de manifiesto dentro en el proceso de test como los movimientos de manos en el K-ABC, en los dígitos del WISC-R o la distractibilidad del WISC-III. Los hallazgos de dificultades en la atención deberían ser usados para poner al niño de forma adecuada en una categoría diagnóstica atencional, conductual, académica o emocional o hacer un diagnóstico de las dificultades comórbidas. No es de sorprender si los síntomas del ADHD no se manifiestan en la atmósfera controlada del despacho del psicólogo, es necesario, por tanto, obtener una evaluación directa del niño o del adolescente a través de múltiples observadores, en diferentes entornos donde los síntomas del ADHD son más probables que emergan. para poder completar esta tarea se pueden administrar a los niños o adolescentes, padres y profesores instrumentos adecuados. TESTS DE PERSONALIDAD Cómo evaluamos la personalidad? La evaluación de la personalidad en niños y adolescentes implica varios abordajes incluyendo las escalas de evaluación de la conducta, autoinformes y técnicas proyectivas. Como se ha señalado antes, las escalas de evaluación conductual y los autoinformes difieren de los tests psicológicos. Los tests proyectivos se basan en la idea de que, al presentarse un estímulo o una tarea vaga, desestructurada o ambigua, la producción del individuo reflejará aspectos de la personalidad que de otra manera no podrían hacerse conscientes para su evaluación. 15 En muchos casos el examinado es inconsciente de qué es lo que está buscando el examinador y así la interpretación del test está encubierta y es menos susceptible de simular. Pero esta carencia de estructura, que genera un número casi infinito de respuestas posibles, crea problemas psicométricos en muchos tests proyectivos. En general, los datos relativos a la normalización son dispersos y la fiabilidad entre puntuaciones es problemática. De todas maneras, son instrumentos muy conocidos para evaluar a niños. Los instrumentos proyectivos más utilizados (Watkins y cols., 1996; Wilson y Reschly, 1996) entran en una de las tres categorías: dibujos, técnicas de manchas de tinta y técnicas verbales de narraciones de historias. • Dibujos: las tres técnicas proyectivas más utilizadas son el Test del dibujo de la figura humana, el Test casa-árbol-persona (HTTP), y el Dibujo de la familia cinético. El test del dibujo de la figura humana (Koppitz, 1984), que se ha estandarizado para niños entre 5-12 años de edad, se puntúa por la presencia de "indicadores emocionales". En tanto que la frecuencia, o los indicadores emocionales de agregados se ha encontrado que distinguen entre poblaciones normales y de pacientes, los indicadores individuales no pueden utilizarse con fines diagnósticos. Además, los datos sólo deberían interpretarse en el contexto de otros materiales clínicos. El Test casa-árbol-persona requiere que el niño haga dibujos separados de una casa, un árbol y una persona. De nuevo los datos deben interpretarse con precaución y deberían utilizarse básicamente para generar, no confirmar, hipótesis sobre el niño. El dibujo de familia cinético (Handler y Habenicht, 1994) requiere que el niño haga un dibujo de su familia haciendo algo juntos y se interpreta en términos de las distancias entre los individuos y el grado de interacción entre ellos. • Técnicas de manchas de tinta: La más conocida es la técnica de Rorschach, que consiste en 10 manchas de tinta bilateralmente simétricas. La falta de evaluaciones adecuadas de fiabilidad y validez, así como la ausencia de un procedimiento único y claro para la administración y la corrección, hizo disminuir la confianza en el Rorschach entre los años 60 y 70. Sin embargo, el desarrollo del Sistema exhaustivo de Exner (Exner y Weiner, 1994) para la administración y corrección durante las dos últimas décadas ha comenzado a hacer cambiar el rumbo de esta tendencia. Recogiendo aspectos de varios sistemas descritos con anterioridad, el Sistema exhaustivo y ateórico de Exner ha comenzado a aplicar procedimientos psicométricos modernos al Rorschach. Actualmente existen pautas claras para la administración y la corrección, así como datos de normalización en niños y adultos. Además, varios estudios de fiabilidad y validez han generado resultados favorables. Aunque los datos del Rorschach deben interpretarse todavía con precaución y nunca deberían utilizarse aislados para tomar decisiones importantes sobre el diagnóstico, etiología o pronóstico, este test de nuevo reavivado puede proporcionar datos útiles en cuanto a aspectos de pensamiento, percepción y respuesta afectiva en niños. • Técnicas de narración: Consisten en que el niño explique una historia en respuesta a un dibujo. Dos tests conocidos son el Test de apercepción temática (TAT), que se puede aplicar a adultos, y el Test de apercepción en niños (CAT), diseñado para niños entre 3 y 10 años de edad. Mientras el TAT consiste en grupos de dibujos en blanco y negro que describen varias escenas, el CAT describe dibujos parecidos a los dibujos animados de animales en situaciones humanas relacionados con diversos aspectos del desarrollo. La tarea consiste en que el examinado explique una historia en base al dibujo. 16 Pese al uso habitual del TAT y el CAT, pocos clínicos utilizan procedimientos sistemáticos para su administración (incluso varían las tarjetas que eligen para presentar), y pocas veces realizan verdaderas correcciones de las respuestas. Por el contrario, las historias suelen interpretarse en el contexto de lo que ya se conoce del paciente y se suelen hacer inferencias de las relaciones sociales y las interacciones interpersonales. Debido a la falta de procedimientos estandarizados y la objetividad en la corrección, estos resultados deben interpretarse con la máxima precaución. Inventario multifásico de personalidad de Minnesota para adolescentes MMPI-A Inventario multifásico de personalidad de Minnesota (Hathaway and Mckinley, 1940; Hataway and Mckinley, 1943) ha sido el inventario de personalidad más utilizado (Anastasi, 1988). Una revisión del MMPI-2 fue publicada en 1989 (Butcher et al., 1989) como su predecesor el MMPI-2 es un informe personal, un instrumento con criterios clave en el cual los ítems del instrumento son seleccionados a partir de un criterio externo, en este caso la habilidad del ítem discrimina un grupo con diagnósticos clínicos de uno que es un grupo de control normal. El MMPI original y MMPI-2 han sido diseñados para utilizarlos con adolescentes mayores y población adulta y se tenía que prestar atención con la validez del MMPI aplicado a un grupo de población adolescente. Para poder subsanar esto y poder ofrecer datos válidos acerca de los adolescentes se ha publicado en 1992 el MMPI-A (Butcher et al., 1992). El MMPI-A está estandarizado sobre la base de las escuelas nacionales de la población adoelscente. Consiste en 478 afirmaciones que deben ser señaladas como verdaderas o falsas en una hoja de respuestas. Su corrección puede ser manual o computerizada. Se incluyen varas escalas de validez y diez escalas clínicas originales: Hipocondriasis, depresión, histeria, desviación psicopática, masculinidad-feminidad, paranoia, psicastenia, esquizofrenia, hipomanía, introversión social. 5 escalas de contenido específicamente relatadas en el desarrollo del adolescente, ansiedad, obsesividad, depresión, problemas de salud, alienación, pensamientos bizarros, ira o enfado, cinismo, problemas conductuales, autoestima, nivel disconford social, problemas familiares, escolares e indicadores negativos de tratamiento. Y las escalas suplemtentarias para medir ansiedad, represión, alcoholismo e inmadurez. Cuestionario de personalidad para niños (CPQ) El cuestionario de personalidad para niños (CPQ) (Porter and Catell, 1972) representa un intento de ofrecer una medida del funcionamiento de la personalidad en niños en edades comprendidas entre los 8 años y los 12 años. El test está basado en el trabajo teórico de Catell, el cual le permitió desarrollar el Cuestionario de personalidad de 16 factores (16 PF) ( Catell et al., 1970). Consiste en 140 preguntas de elección forzada que pueden ser divididas en versiones cortas de 70 ítems cada una, el tiempo de administración no excede a los 45 minutos. El CPQ genera puntuaciones para 14 rasgos de personalidad hipotétizados, incluyendo estabilidad emocional, autoconcepto, excitabilidad y seguridad personal. Con otros factores de segundo orden derivados de los del 16 PF que son: extroversión, ansiedad, independencia y objetividad. 17 ESCALAS PARA LOS TRASTORNOS INTERNALIZADOS. ¿Qué escalas podemos utilizar para evaluar los trastornos del humor? Los trastornos del humor en niños y adolescentes tomaron relevancia en los años 80, motivo por el cual la mayoría de las escalas que valoran la depresión se desarrollaron durante esa misma época. No obstante, todas estas escalas siguen siendo ampliamente utilizadas y en constante revisión. A continuación se detallan aquellas escalas para los trastornos del humor de más relevancia en la psiquiatría infantil y adolescente. Inventario de Depresión de Beck (BDI), Beck and Steer Este inventario (BDI) es la escala de depresión más utilizada en adolescentes. Evalúa los siguientes componentes de la depresión: cognitivos, de comportamiento, afectivos y somáticos. El BDI se ha estudiado y evaluado ampliamente así como utilizado clínicamente. Ha sido utilizado en múltiples países y traducido a varios idiomas. También se ha llevado a cabo una versión muy breve, la cual optimiza de manera efectiva el seguimiento. Respecto a las propiedades psicométricas, tiene una buena consistencia interna y buena estabilidad (fiabilidad test – retest). Se ha demostrado una buena validez de criterio, de contenido y discriminante. Los estudios muestran que discrimina a adolescentes deprimidos de aquellos con trastornos del comportamiento (pese a la comorbilidad de ambos trastornos), así como también discrimina síntomas de ansiedad y depresión. Las puntuaciones de corte varían según la población. El género, la nacionalidad y la etnia afectan a dichas puntuaciones, así como los pacientes hospitalizados vs no hospitalizados o clínicos vs normativos. Las ventajas del BDI son la notable base de datos con la que cuenta, su brevedad y rapidez de completarse y la buena discriminación que ofrece del trastorno de ansiedad. Parece más útil con los jóvenes y facilita estudios longitudinales desde la adolescencia hasta la época adulta. No obstante, presenta algunos inconvenientes, tales como la imposibilidad de recoger información paralela de adultos importantes. Otro aspecto a tener en cuenta es que el BDI no es una entrevista de diagnóstico, sino un instrumento para ser utilizado en la evaluación de la severidad de la depresión tras haber diagnosticado este trastorno. En este sentido, debemos tener en cuenta que el BDI no parece discriminar los niveles de severidad de la depresión en adolescentes, tal y como lo hace con los adultos. Escala de Hamilton para la Depresión (HDRS), Warren. Esta escala (HDRS) es una escala de evaluación clínica. Ha sido muy utilizada con adolescentes (versiones de 17 ítems y de 14 ítems) a pesar de la falta de datos relacionados con su funcionamiento. En los estudios con adultos, los ítems del HRSD se desarrollan en 5 dimensiones. De ellas, es la primera dimensión la que ofrece un índice global de severidad. Su estructura de ítems con los adolescentes no ha sido examinada. Por lo que respecta a las propiedades psicométricas, tanto la consistencia interna como la fiabilidad inter-jueces parecen excelentes, pero la fiabilidad test-retest no está confirmada. La validez convergente sólo es moderada, debido a la variabilidad del humor depresivo y anhedonias de los adolescentes. La validez discriminante sólo se ha estudiado en pacientes no hospitalizados vs controles normales, pero no existen datos relacionados con los controles psiquiátricos. La mayoría de los trabajos juveniles con el HRSD se relacionan con los resultados del tratamiento. En los estudios no controlados, el HRSD muestra sensibilidad a la farmacoterapia, a la terapia electroconvulsiva y a la terapia cognitivo-conductual. Dichos estudios sugieren la sensibilidad y utilidad del HRSD con los adolescentes. 18 No obstante, se requieren investigaciones acerca de sus propiedades psicométricas para asegurar la adecuación del uso con adolescentes. Además, el énfasis del HRSD sobre los síntomas somáticos y de ansiedad puede mostrar una pobre discriminación de los trastornos de la ansiedad. Escala de Depresión Adolescente (RADS) y Escala de Depresión Infantil (RCDS) de Reynolds. Estas escalas (RADS y RCDS) son dos escalas basadas en criterios DSM-III para la depresión. La RADS tiene numerosas aplicaciones. Ha ayudado a examinar la fenomenología y efectos de la depresión, suicidio, aflicción y violencia. Ha servido como un estándar de validez para otras escalas de depresión y suicidio y es aplicable a diversas poblaciones. Discrimina entre la aflicción y la depresión. Consta de una amplia base de datos, por lo que es representativa y adecuada para la mayoría de adolescentes. La versión de los padres también muestra un buen funcionamiento. Las propiedades psicométricas de la RADS son buenas. Muestra excelente consistencia interna y muy buena estabilidad. Tiene buena validez convergente y existe falta de estudios respecto a su validez discriminante. La RCDS se ha estudiado principalmente con niños en edad escolar y funciona casi tan bien como la RADS. Como con otras medidas juveniles, las puntuaciones de los niños no concuerdan con las de los padres y profesores acerca de la depresión. La RCDS ha tenido mucho éxito al emplearse con adolescentes que presentan discapacidad intelectual. Las escalas de Reynolds poseen muchas ventajas. Tienen una excelente validez de construcción, al contrario que muchas otras escalas de nivel de depresión. También proporcionan datos normativos y sólidas propiedades psicométricas. Su utilidad individual esta facilitada por la habilidad para llevar a cabo evaluaciones de niños y adolescentes así como un estudio longitudinal desde la niñez a la adolescencia. La desventaja principal está relacionada con el desarrollo de las escalas y su uso predominante en ejemplos escolares. Esto puede hacer descender su utilidad con los ejemplos clínicos. Finalmente, la sensibilidad, la especificidad y las puntuaciones de corte en la población clínica no se han establecido. Centro de Estudios Epidemiológicos – Escalas de Depresión (CES-D y CES-DC), Weissman et al. Esta escala (CES-D) consiste en una selección empírica de ítems a partir de otras escalas de adultos y ha sido muy utilizada con los adolescentes. También ha sido modificada para los niños y adolescentes (CES-DC). Respecto a sus propiedades psicométricas, muestra buena consistencia interna y moderada estabilidad en adolescentes, pero pobres en el caso de escolares. La validez concurrente es buena pero la discriminante es problemática (no diferencia a adolescentes deprimidos de controles psiquiátricos). Tiene poca sensibilidad y especificidad. Tanto el CES-D como el CES-DC pueden ser mejor considerados como medidas de psicopatología general que de depresión. Inventario de Depresión en Niños (CDI), Kovacs. Este inventario (CDI) representa una extensión del BDI. Proporciona cinco dimensiones de la depresión en niños y adolescentes: Humor disfórico; conducta acting-out; pérdida de intereses personales y sociales; menosprecio; síntomas vegetativos. No obstante, el papel de las dimensiones no está claro y por ello tiene a utilizarse únicamente la puntuación total. Las propiedades psicométricas son correctas. La consistencia interna es adecuada y la fiabilidad test-retest es muy variable y de alguna manera menor para los chicos que para las chicas y para la población general vs los adolescentes psiquiátricos, tal y como se debe esperar debido a la inestabilidad de los sentimientos depresivos en la población general. 19 De manera similar a otras medidas, existe una concordancia muy pobre entre niñoadulto, que mejora conforme el niño madura. La validez convergente es buena y también muestra validez predictiva. La validez discriminante es la más problemática, y la sensibilidad y especificidad muy pobres. Entre las ventajas del CDI se cuentan su gran utilidad y sus propiedades psicométricas. Es la escala más utilizada y mejor estudiada para la depresión juvenil, lo relacionado con ella, y los factores asociados. Ha sido utilizado en muchas nacionalidades y traducido a varios idiomas. Sus propiedades psicométricas son generalmente muy elevadas, y existe una base normativa tanto para niños como para adolescentes. Tiene un gran número de publicaciones que permite al examinador determinar la validez del CDI para una determinada tarea y comparar los resultados en relación con otros hallazgos. Existen algunas desventajas. El formato de respuesta que consta de 3 elecciones no se ajusta a algunos niños. Tampoco es óptimo para detectar los efectos del tratamiento, posiblemente teniendo en cuenta la pobre actuación del CDI en estudios farmacológicos. La validez discriminante es pobre con un alto nivel de falsos negativos. De forma más importante, tiene una validez de construcción muy pobre. . Escala de Depresión de Niños (CDS), Lang and Tisher. Esta escala (CDS) es la escala de depresión de niños más utilizada. Los autores proponen 8 subescalas: (1) Respuesta Afectiva (2) Problemas Sociales (3) Autoestima (4) Preocupación por la muerte (5) Sentimientos de culpa (6) Depresivos Varios (7) Ánimo-Alegría y (8) Positivos Varios (capacidad para experimentar alegría). Las primeras 6 subescalas (48 ítems) están combinadas en una Puntuación Total Depresiva y las últimas 2 subescalas (18 ítems) en una Puntuación Total Positiva. El CDS posee unas propiedades psicométricas adecuadas. La consistencia interna del CDS va de moderada a excelente para las varias subescalas y la escala total, y la fiabilidad test-retest es generalmente moderada. La validez varía. Posee una buena validez de construcción y una buena validez discriminante, discrimina a niños deprimidos de niños normales, así como a los controles clínicos de los niños tristes no deprimidos. La validez concurrente no es tan adecuada. Entre los inconvenientes del CDS se halla el hecho de que puede producir falsos positivos y su falta de datos normativos. Los diferentes estudios han hallado diferencias demográficas que hacen necesarios estos datos normativos. Así mismo, también se considera un inconveniente la dificultad de puntuar e interpretar el test. Escala de Autoevaluación para la Depresión (DSRS), Birleson. Esta escala (DSRS) fue modelada tras la Escala de Depresión de Zung para medir los síntomas afectivos, cognitivos y somáticos de depresión. La mayoría de ítems se derivan de las descripciones de las publicaciones de depresión infantil, aunque algunos de ellos son producto de la propia experiencia del autor. La consistencia interna es de moderada a buena y menor para pacientes hospitalizados. La fiabilidad test-retest es buena. Existen diferencias de género, las chicas puntúan más alto que los chicos. Aunque la validez en general es adecuada, presenta una pobre validez discriminante. Las ventajas más importantes del DSRS incluyen la adecuación para niños, un lenguaje muy simple, brevedad, facilidad de uso y puntuación. Si su validez discriminante se confirma en estudios posteriores, tendrá gran utilidad. 20 Escala de Nivel de Depresión en Niños–Revisada (CDRS-R), Pozanski and Mokros. Esta escala (CDRS-R) es una escala de evaluación clínica que se basa en el HRSD pero que está desarrollada específicamente para niños. Sin embargo, el CDRS-R es muy utilizado con quinceañeros. El CDRS-R se caracteriza por integrar información de múltiples campos, incorporar el comportamiento durante la entrevista, y mantener varios ítems no específicos de la depresión. El especialista completa la escala de manera independiente con el padre e hijo, produciendo tres puntuaciones: la puntuación del padre, la del hijo y la combinada. La concordancia padre-hijo es escasa. La consistencia interna es adecuada y la fiabilidad test-retest es buena. Muestra también una buena fiabilidad inter-jueces. La validez concurrente es correcta al igual que la validez discriminante. Tiene datos normativos (basados en un número moderado de niños escolares). El CDRS-R ha sido muy utilizado en la investigación. Las investigaciones farmacológicas han combinado el CDRS-R con las escalas de auto-informe y los niveles de evaluación global para proponer una evaluación sólida del curso de los síntomas depresivos. Es sensible a los efectos de la medicación, aunque muestra que la mayoría de jóvenes no adquieren una remisión completa. También se utiliza como medida de resultado en la investigación de psicoterapia. Refleja mayor consideración de síntomas fisiológicos. Entre las ventajas del CDRS-R se cuentan su formato de entrevista clínica y la integración de múltiples fuentes de información, que se piensa que es más adecuada que el autoinforme, especialmente con niños. Además, existe una forma breve que se relaciona enormemente con el CDRS-R (r = 0.91) facilitando por ello las evaluaciones de seguimiento. Escala de Evaluación de la Manía (MRS), Young et al. Esta escala (MRS) es una escala clínica que evalúa la sintomatología maníaca en adultos y ha sido examinada en dos pequeños estudios relacionados sobre niños bien con trastorno bipolar (TB) o Trastorno por Déficit de Atención con Hiperactividad (TDAH). En estos estudios, la MRS era completada por el especialista tras combinar impresiones de entrevistas con el niño y sus padres. Con el ejemplo total de los niños con TB y TDAH, la consistencia interna era buena. Sin embargo, cuando se les examino siguiendo el grupo diagnostico individual, pocos ítems se relacionaban con la puntuación total. La fiabilidad test-retest no se ha hallado. La validez concurrente era buena en relación con la Escala de Impresión Clínica Global para la Manía (CGI-M), una escala desarrollada recientemente para el estudio, que era administrada por el mismo entrevistador. La validez discriminante no es muy buena. Las investigaciones muestran que la MRS evalúa una construcción separada de la depresión y el TDAH. El MRS también ha mostrado sensibilidad a los efectos de tratamiento con los estabilizadores de humor que apoyan los criterios de validez con los adolescentes. Estos estudios son muy preliminares y la mayoría advierten sobre su aplicación. Los estudios con niños tienen poco muestreo, y los dos grupos no parecen bien marcados acerca de la importancia de la enfermedad. La consistencia interna para los niños bipolares no fue tan bien apoyada como lo fue para el grupo total. La estabilidad es desconocida. Las dos nuevas escalas desarrolladas para evaluar la validez concurrente del MRS, el CGI-M y el CGI-D, no han establecido propiedades psicométricas y, por tanto, no fueron estándares apropiados para la evaluación. Debido a que la MRS requiere administración clínica, es muy costosa en el tiempo y requiere un personal intensivo. A pesar de su uso en aumento con jóvenes de todas las edades, el MRS no ha sido suficientemente estudiado para asegurar su adecuación con cualquier grupo de edad, su utilidad para las aplicaciones clínicas o de investigación, o su propiedad general. 21 PROPIEDADES PSICOMÉTRICAS DE LAS ESCALAS DE EVALUACIÓN DE TRASTORNOS DEL HUMOR FIABILIDAD: VALIDEZ: PUNTOS FACTORES TOTAL DE TOTAL DE DE PUNTUACIÓN ESCALAS & ESCALAS & CORTE SUBESCALAS SUBESCALAS (EJEMPLOS) (EJEMPLOS) ÍTEMS ESCALA (edades) BDI (adolescentes) Beck and Steer, 1993 21 1 3 puntos CI: 0.790.91 CONC: 0.49-0.73 HRSD (adolescentes) Warren, 1997 RADS (13-18 años) Reynolds, 1987 17,21,24 5 3-5 puntos 30 1 5 puntos CI: 0.90 IJ: Excelente CI: 0.920.96 TR: 0.800.86 CONC: 0.56 RCDS (8-13 años) Reynolds, 1989 CES-D (adolescentes) CES-DC (niños y adolescentes Weissman et al., 1980 30 1 5 puntos CI: 0.90 TR: 0.80 CONC: 0.74 CONV: buena 20 1 4 puntos CI: 0.75 (CES-D) 0.84-0.89 (CES-DC) TR : 0.510.57 IJ : pobre CDI (7-18 años) Kovacs, 1992 27 5 3 puntos CI: 0.590.88 TR: 0.380.87 CONC : muy buena (CES-D) 0.44-0.61 (CES-DC) CONV: moderada (CES-D) DISC : moderada (CES-D) Pobre (CES-DC) CONC: altamoder. CONV: altamoder. DISC: pobre CDS (8-11 años) Lang and Tisher, 1978, 1987 66 8 5 puntos CI: 0.540.94 TR: 0.74 CONC: 0.84 CONV: buena DISC: buena DSRS (8-13 años) Birleson, 18 1 3 puntos CI: 0.730.86 TR: 0.80 CONC: 0.81 DISC: moderada CONC: 0.70-0.89 CONV: 0.70-0.89 OTROS Tiempo menor de 10 minutos para completar y puntuar; Formulario de corta observación Tiempo menor de 20 minutos para completar y puntuar 77 Tiempo menor de 20 minutos para completar y puntuar Datos normativos Versión para padres Tiempo menor de 20 minutos para completar y puntuar Versión para padres 15-16 Tiempo menor de (CES20 minutos para DC) completar y puntuar Da falsos positivos Versión para padres Breve versión de 7 ítems Tiempo menor de 20 minutos para completar y puntuar Datos normativos Versión para padres y maestros Versión breve Tiempo de 30 minutos para completar y puntuar Versión para padres y maestros 13 Tiempo menor de 15 minutos para completar y puntuar 22 1981a CDRS-R (6-12 años) Pozanski and Mokros, 1999 17 1 5-7 puntos CI: adecuada TR: 0.81 CONC: 0.75-0.92 MRS (niños) Young et al., 1978 11 1 5 puntos y 9 puntos CI: 0.80 CONC: 0.80-0.84 CONV: alta DIVG: buena – muy buena DISC: buena- muy buena 40 25% falsos positivos (necesario mayor punto de corte) Tiempo: 45-70 minutos para completar y puntuar Versión breve de 5 ítems Tiempo: 15 minutos para completar y puntuar Faltan datos normativos CI-CONSISTENCIA INTERNA, IJ- INTERJUECES, TR-TEST-RETEST, CONCCONCURRENTE, CONV-CONVERGENTE, DISC-DISCRIMINANTE, DIVGDIVERGENTE. ¿Qué escala debemos elegir para evaluar la depresión? La mayoría de estudios parecen elegir una escala basada en su popularidad y actuación con adultos a pesar de los datos limitados relacionados con su funcionamiento con jóvenes. Así, cuando la escala no demuestra sensibilidad a los efectos del tratamiento, no esta claro si existen beneficios verdaderos del tratamiento o si la escala era una pobre medida de resultado. Además, la mayoría de escalas de evaluación de la depresión sufren de una pobre validez de construcción. Así, la ansiedad o cualquier otro constructo que no sea la depresión, puede ser subyacente a esas escalas. También la validez discriminante es difícil de obtener en las escalas que miden los trastornos de humor a causa de la existencia de síntomas depresivos en los grupos de control, incluso en los controles no clínicos. Considerando estas limitaciones, hacemos algunas recomendaciones: Si una escala se va a utilizar con ejemplos no clínicos, el RADS y el RCDS pueden ser la mejor elección. Ofrecen una construcción clara, sobretodo buenas propiedades psicométricas, y experiencia con cientos de jóvenes. Para los casos clínicos, una combinación del CDRS-R administrado clínicamente junto con el autoinforme CDI ofrece una construcción óptimamente clara. Ambos funcionan bien en la mayoría de estudios de jóvenes deprimidos, y muestran sensibilidad al tratamiento. El CDRS-R cubre los síntomas fisiológicos de la depresión, y el CDI cubre los síntomas cognitivos. El uso de dos escalas es consistente con las recomendaciones generales para obtener una medida robusta acerca de la psicopatología de un joven. Ambos tienen formas cortas que facilitan las evaluaciones recurrentes o longitudinales. 23 ¿Qué escalas podemos utilizar para evaluar los trastornos de ansiedad? Los trastornos de ansiedad comprenden los trastornos psiquiátricos más prevalentes en la infancia. Sin embargo, la ansiedad también comprende un aspecto normal del desarrollo, por ello las escalas de evaluación de la ansiedad requieren una buena habilidad para discriminar a los niños y adolescentes con síntomas clínicos de ansiedad o con aquellos síntomas de ansiedad normales dentro de la propia evolución y desarrollo. Detallamos seguidamente las escalas más relevantes en la evaluación de los trastornos de ansiedad en la infancia y la adolescencia. Escala de Evaluación de la Ansiedad de Hamilton (HARS). Esta escala (HARS) es una escala que administra el especialista, generalmente a padres y adolescentes para obtener una puntuación completa acerca de la ansiedad del joven. A pesar de su amplio uso con los adolescentes, su examen se limita a un estudio simple con un ejemplo mixto de jóvenes clínicos y comunitarios. Los ítems físicos y somáticos replican los ítems adultos. Las propiedades psicométricas son correctas. La consistencia interna es buena por lo que respecta a la ansiedad psíquica pero es menos fiable para la ansiedad somática. La fiabilidad test-retest es moderada, y la fiabilidad inter-jueces es excelente. La validez varía de pobre a moderada. La validez convergente es pobre y la discriminante moderada (discrimina a sujetos clínicos de normales, pero muestra una pobre discriminación de los trastornos depresivos). Pese a la falta de estudios, existen indicadores de la buena sensibilidad de la escala al tratamiento. Así pues, la adecuación del HARS, su utilidad, y la propiedad para los adolescentes no está clara. Escala de Ansiedad Manifiesta en Niños Revisada (C-MAS), Reynolds and Richmond. Esta escala (C-MAS) también se conoce como la escala de “Lo que Pienso y lo que Siento”. Mide las manifestaciones crónicas de ansiedad. Además de sus tres subescalas de ansiedad (Fisiológica, Preocupación / Sensibilidad Excesiva, y Temor / Concentración), el C-MAS contiene una escala de Mentiras para evaluar una respuesta de deseabilidad social. Numerosos estudios han establecido sus sólidas propiedades psicométricas. Parece haber más datos sobre su validez que su fiabilidad. La validez concurrente esta apoyada por la relación del C-MAS con la mayoría de medidas de ansiedad, en concreto el Inventario para Niños De Ansiedad Estado-Rasgo (STAIC) que mide el mismo constructo. Sin embargo, su validez discriminante parece pobre ya que los jóvenes con TDAH también puntúan alto. El C-MAS ha servido como un estándar de validación para otras escalas. Parece sensible a los efectos de tratamiento en la psicoterapia. Durante muchos años, el C-MAS ha demostrado su adecuación en niños y adolescentes, su sensibilidad hasta la ansiedad en varias poblaciones, y su utilidad en múltiples aplicaciones. Posee una base de datos muy rica que apoya su validez general, sensibilidad, adecuación y utilidad al examinar la ansiedad de los jóvenes. Ha sido la escala utilizada para la observación en la escuela, comunidad y atención primaria. Además, ha sido utilizada para examinar múltiples problemas entre grupos étnicos y de varias nacionalidades, y ha sido traducido a varios idiomas, a veces produciendo estructuras diferentes de los ítems. Continúa siendo utilizado en la investigación psiquiátrica primaria. A pesar de su longevidad, el C-MAS tiene algunas dificultades. Ha sido examinado principalmente con poblaciones escolares. Así, su sensibilidad, especificad, puntos de corte y funcionamiento pueden diferir en los casos clínicos. Incluso con ejemplos escolares, recientemente se ha demostrado que no actúa tan bien como las escalas elaboradas en los últimos años. El constructo que mide no está claro y sus habilidades discriminantes parecen pobres. Finalmente, la dicotomía de formato si/no hace 24 descender su sensibilidad, especialmente hacia los efectos del tratamiento. Aunque aún ampliamente utilizado, el C-MAS está siendo suplantado por escalas más nuevas. Escala Multidimensional de Ansiedad para Niños (MASC), March. Esta escala (MASC) es una escala realizada empíricamente que evalúa un espectro de síntomas de ansiedad más que un constructo de ansiedad. Sus cuatro factores más importantes son invariables a través de la edad y genero, y tres de ellos pueden ser subdivididos: (1) Síntomas Físicos (tensión / nerviosismo y somático / autonómico), (2) Ansiedad Social (humillación / negación y miedo a actuar en público), (3) Evitación (perfeccionismo y ansiedad de relación), y (4) Ansiedad de Separación. Dos de estos factores importantes marcan los diagnósticos DSM-IV de la fobia social y el Trastorno de Ansiedad por Separación, mientras que la puntuación total marca un Trastorno de Ansiedad Generalizada. Un Índice de Inconsistencia identifica los perfiles inválidos. Respecto a las propiedades psicométricas, tanto la consistencia interna como la fiabilidad test-retest van de moderadas a excelentes y no se ven afectadas por la edad o género. La fiabilidad inter-jueces va en función de los informantes. Existe una baja concordancia padre-hijo la cual es mejor para los síntomas fácilmente observables, y mejor para la pareja madre-hijo que para la pareja padre-hijo. La validez parece de moderada a buena. Un rasgo a destacar es que las subescalas y el Índice de Trastornos de Ansiedad discriminan a los jóvenes según la presencia o ausencia de trastornos de ansiedad en un 88% de los casos. El MASC tiene muchas ventajas. Fue desarrollado con un grupo heterogéneo de jóvenes. Su construcción es clara, y es la primera escala en validar la división de síntomas de ansiedad en físicos y comportamentales. La puntuación debe ser sensible a los efectos del tratamiento, aunque los estudios de tratamiento inicial han mostrado resultados variables. Recientemente demostró mejores resultados que el C-MAS. Se está convirtiendo en la escala de ansiedad de referencia para los emplazamientos clínicos y de investigación. No obstante, el MASC necesita ser examinado en otros ámbitos y durante una mayor franja de tiempo para validar posteriormente la escala. Observación de la Ansiedad Infantil ligada a Trastornos Emocionales (SCARED), Birmaher. Esta escala (SCARED) fue desarrollada con jóvenes heterogéneos que se presentaban en una clínica de trastornos de ansiedad y humor. Sus cinco dimensiones se establecen a partir de los trastornos DSM-IV: trastorno de ansiedad generalizada, trastorno de ansiedad por separación, fobia social, fobia escolar y somatizaciones / dolor. Respecto a las propiedades psicométricas, la fiabilidad test-retest varía de moderada a excelente para la escala total y subescalas. La fiabilidad inter-jueces varía según la edad, siendo más alta para niños que para adolescentes. La validez es prometedora. El SCARED se relaciona bien con otras escalas de ansiedad, incluida la MASC y la C-MAS. Todas las subescalas discriminan a los ansiosos de otros jóvenes, especialmente aquellos con trastornos de conducta y en algún grado los jóvenes deprimidos. Las subescalas de la fobia social y la fobia escolar actúan peor que el resto de subescalas. El SCARED ofrece varias ventajas. La validez de construcción está clara porque se basa en el DSM-IV, y su validez discriminante es impresionante. Si su habilidad para discriminar la ansiedad de la depresión se comprueba, sería de mucha ayuda para examinar los trastornos internalizados. La puntuación de 3 puntos puede ser insensible a los efectos de tratamiento, aunque los estudios de tratamiento inicial han sido variables. Se necesitan estudios posteriores para evaluar su funcionamiento a través de múltiples condiciones, en concreto con ejemplos clínicos. Escala de Evaluación de la Ansiedad Pediátrica (PARS), Riddle. Esta escala (PARS) es una escala administrada por especialistas desarrollada con un grupo heterogéneo de jóvenes que participaron en un ensayo clínico. Mide la ansiedad en tres áreas: Ansiedad de Separación, Fobia Social y Ansiedad Generalizada. Los 25 ítems se derivan directamente de los criterios DSM-IV para estos trastornos de ansiedad, haciendo su validez de construcción clara. El formato del PARS se modela sobre la Escala de Obsesiones y Compulsiones de Niños de Yale-Brown. En primer lugar, padres e hijo completan un cuestionario de síntomas de 50 ítems, bien de forma separada, bien juntos, en función de si el síntoma está presente o ausente (si/no) durante la última semana. El especialista entonces puntúa todos los síntomas sobre la base de siete dimensiones: número de síntomas, frecuencia, severidad de los síntomas de ansiedad, severidad de los síntomas físicos, evitación, interferencia en casa, e interferencia fuera de casa. Cada subescala utiliza su propia escala de 6 puntos, “nada” a “extremo”. Así, el PARS evalúa la frecuencia, severidad y deterioro de la ansiedad de separación, fobia social y ansiedad generalizada. Los datos psicométricos preliminares abarcan la puntuación total y sus dimensiones. La puntuación total del PARS no varía en función del género o la edad. La consistencia interna va de pobre a moderada para la escala total y sus siete dimensiones. Esta aparente consistencia interna subóptima es debida al formato de puntuación particular del PARS. En este caso, la consistencia interna no mide si los ítems individuales evalúan el mismo constructo sino cómo de independientes o de solapadas están las siete dimensiones. Por lo tanto, la consistencia interna pobre a moderada representa una independencia relativa de estas siete dimensiones. La fiabilidad test-retest es moderada (en un intervalo de 3 semanas). La validez convergente de baja a moderada en función del informante. La validez divergente (respecto a las escalas que evalúan la depresión) es buena. A causa de su novedad (2002), el PARS no ha sido citado en otros estudios. Sin embargo, parece ajustarse a los niños y adolescentes. Su utilidad se relaciona con la habilidad potencial para discriminar la ansiedad de la depresión y la sensibilidad demostrada a los efectos de tratamiento, especialmente porque las medidas de autoinforme no demuestran generalmente demasiada sensibilidad. No obstante cabe advertir que la sensibilidad estudiada en el PARS (medida antes y después del tratamiento) no ha sido evaluada con respecto al grupo de tratamiento, es decir, medicación activa o placebo. Así, no está claro si el PARS mide una respuesta general a la implicación en el tratamiento, o un efecto especifico de la medicación. La utilidad ha descendido de alguna forma por el formato de administración por un especialista y el tiempo de administración. Se necesitan estudios sobre la aplicación y funcionamiento del PARS. Inventario de Ansiedad de Estado-Rasgo para niños (STAIC), Speilbeger. Este inventario (STAI-C) también llamado el “Cuestionario de Cómo Me Siento” se adaptó a los niños en edad escolar a partir de una escala de adultos. El STAI-C evalúa la ansiedad global que varía según situaciones (ansiedad de estado) y la ansiedad que es estable a través del tiempo y situaciones (ansiedad de rasgo). El STAI-C ha sido examinado mayoritariamente en ejemplos comunitarios, aunque parece funcionar de manera comparativa con diversos ejemplos clínicos y étnicos. La consistencia interna y la fiabilidad test-retest son mayores para la subescala de estado y en chicas. Las chicas puntúan ligeramente más alto en la subescala de Rasgo. La validez es moderada. La validez de construcción para la subescala de estado es evidenciada por mayores puntuaciones en presencia de un factor estresante respecto a las puntuaciones de base. Aunque desarrollada para niños, el STAI-C también ha descubierto aplicaciones considerables con los adolescentes, donde presenta una buena consistencia y buena validez discriminante. El STAI-C ha tenido numerosas aplicaciones y ha mostrado una buena sensibilidad a los efectos de la terapia cognitivo-conductual. Pero a pesar de estas diversas aplicaciones, el STAI-C ha sido criticado. Mientras que la diferenciación de ansiedad de rasgo y ansiedad de estado es atractiva, su validez y utilidad no están claras. Su psicometría no es demasiado óptima. Aunque aún muy utilizada, el STAI-C está siendo eclipsada por escalas más modernas. 26 Inventario de Ansiedad y Fobia Social para Niños (SPAI-C), Beidel. Este inventario (SPAI-C) evalúa los aspectos somáticos, cognitivos y de comportamiento de la ansiedad social mediante tres subescalas: Afirmación, Encuentros Sociales y Actuación en Público. La fiabilidad es impresionante. La excelente consistencia interna para las subescalas del SPAI-C es considerablemente más alta que la consistencia de las subescalas de la mayoría de escalas de evaluación de la ansiedad. La fiabilidad test-retest para estas mismas subescalas va de moderada a muy buena. La validez es de baja a moderada. De manera interesante, no se observan diferencias de género en los niños pero sí en adolescentes. La validez discriminante es buena, es una de las pocas escalas que discriminan entre los diferentes trastornos de ansiedad. Se necesitan estudios acerca de su sensibilidad a los efectos del tratamiento ya que hasta ahora se han obtenido resultados contradictorios. El SPAI-C es la primera escala que incluye un trastorno de ansiedad específico, la fobia social, lo que le ofrece una consideración especial. Ha sido sistemáticamente investigado y actúa bien con ejemplos escolares y clínicos. Su puntuación de 3 puntos puede no ser óptima para detectar los efectos del tratamiento. Estudios de tratamiento posteriores y datos con adolescentes serán interesantes. Escala de Ansiedad Social para Niños Revisada (SASC-R), La Greca. Esta escala (SASC-R) se basa en la hipótesis de que la ansiedad social fomenta el desarrollo de comportamientos sociales inadaptados que conducen a los trastornos de ansiedad. El SASC-R examina la ansiedad social con relación al funcionamiento con amigos, una fuente importante de experiencia afectiva. Sus tres subescalas están moderadamente interrelacionadas: Miedo a la Evaluación Negativa, Evitación de Situaciones Sociales y Ansiedad ante Nuevos Amigos o Situaciones, y Ansiedad Generalizada ante Situaciones Sociales. La consistencia interna para todas las escalas y subescalas es de moderada a muy buena y la fiabilidad test-retest es buena. Muestra una buena validez convergente y discriminante (entre los niños con fobias simples, el SASC-R discrimina a aquellos con y sin trastornos de ansiedad social). El SASC-R realiza nuevas contribuciones para el entendimiento de la ansiedad infantil. Su construcción es clara y distingue dos formas conceptualmente y clínicamente relevantes de la ansiedad social: Ansiedad Social Generalizada y Evitación de Situaciones Sociales con ansiedad ante nuevos amigos o situaciones. Escala de Afrontamiento de Temores para Niños-Revisado (FSSC-R), Ollendick. Esta escala (FSSC-R) es una revisión del FSSC original desarrollado en los años 60. Evalúa tanto el número como la intensidad de los temores. Sus cinco subescalas son invariables a través del genero y la edad: Temor al Fallo y la Critica, Temor a lo Desconocido, Temor a las Lesiones y a los Animales Pequeños, Temor al Peligro y la Muerte, y Temores Médicos. Todos los temas están muy relacionados, cuestionando la utilidad de las subescalas, y si la escala total o las subescalas pueden ser utilizadas dependiendo de la aplicación intencionada. La consistencia interna y la fiabilidad test-retest están bien establecidas. Las chicas presentan los mismos temores que los chicos, pero presentan mayor intensidad en los temores; los niños más pequeños también reportan un mayor temor. El FSCC-R indica que los temores de los jóvenes son más estables durante 2 años, y que los jóvenes muy temerosos siguen temerosos 2 años mas tarde. Además, durante los pasados 40 años, los temores más importantes de los jóvenes han continuado relacionándose con la muerte y al peligro. Respecto a su validez, tiene una buena validez convergente si bien la validez discriminante no está clara. El FSSC-R ha discriminado los niños fóbicos de los controles y ha discriminado entre varias fobias. El temor al fallo y la crítica poseen un mayor poder discriminatorio. Sin embargo, los chicos con trastornos de ansiedad no han mostrado temores diferentes de los chicos con trastornos disruptivos, ni tampoco de los chicos normales. 27 El FSSC-R tiene muchas aplicaciones. Con jóvenes que tienen discapacidad intelectual, el FSSC-R funciona bien. Estos jóvenes muestran un mayor número y nivel de temores así como mayores niveles de temores que los jóvenes con otras incapacidades o sin ellas. Generalmente, el FSSC-R actúa de forma similar en función de la etnia, nacionalidad, cultura y religión. Los modelos de temor en los jóvenes pueden variar según cualquiera de estos 4 factores. También la genética puede ser importante para el temor. La mayoría de estudios han establecido las propiedades y utilidad del FSSC-R y por ello continúa siendo muy utilizado en pequeñas competencias. Escala Obsesivo-Compulsiva para Niños de Yale-Brown (CY-BOCS), Goodman. Esta escala (CY-BOCS) es una modificación en su desarrollo del Y-BOCS y se ha convertido en la evaluación estándar del TOC. Es una entrevista administrada por el especialista. Tiene una escala asociada de autoinforme que se puede completar previa a la entrevista y hacer de guía para la misma. El CY-BOCS evalúa los síntomas e importancia del TOC durante una amplia franja de tiempo. Contiene 5 bloques: instrucciones, listado de obsesiones, grados de importancia de las obsesiones, listado de compulsiones, y nivel de intensidad de las compulsiones. En primer lugar, el entrevistador asegura el espectro de las obsesiones (8 categorías) y compulsiones (nueve categorías) utilizando los listados respectivos. Las obsesiones y compulsiones más destacadas son entonces evaluadas según una escala de 5 puntos acerca de la severidad: tiempo ocupado, interferencias, nerviosismo, resistencia y grado de control. Esto da lugar a una puntuación global para las obsesiones y otra para las compulsiones, y finalmente se obtiene una total, la puntuación total CY-BOCS es la suma de las Puntuaciones de Obsesiones y Compulsiones. Las propiedades psicométricas son muy buenas. La buena consistencia interna de los 10 Ítems de Severidad refleja mejor consistencia para los jóvenes que para los niños. Los 5 ítems de obsesión y los 5 de compulsión se relacionan muy bien con sus propias subescalas pero solo de forma moderada con las subescalas del otro, lo que sugiere una ligera independencia en cada escala. El CY-BOCS tiene una buena validez convergente, pero se necesita mayor experiencia para evaluar la validez. El CY-BOCS ha sido utilizado para examinar la fenomenología del TOC. Tanto con niños como con adolescentes, el CY-BOCS ha mostrado sensibilidad al tratamiento farmacológico. En todos los estudios, la puntuación total del CY-BOCS y la puntuación de Compulsiones descendieron más en los grupos de medicación serotonérgica que en los grupos tratados con placebo. También es sensible al tratamiento cognitivoconductual. El CY-BOCS permite la evaluación sistemática de las obsesiones y compulsiones y es muy útil para evaluar los resultados de los tratamientos. Sin embargo, tiene algunos inconvenientes. Su adecuación para los niños se ve dificultada por el factor de resistencia. Esto compromete los informes de los jóvenes sobre la importancia de los síntomas. Son necesarias más adaptaciones para mejorar su adecuación en los niños. La estabilidad es desconocida. PROPIEDADES PSICOMETRICAS DE LAS ESCALAS DE ANSIEDAD FIABILIDAD: ESCALA (EDADES) ÏTEMS FACTORES PUNTUACIÓN HARS (adolescentes) Evaluada: 14 2 4 puntos VALIDEZ: TOTAL DE TOTAL DE ESCALAS & ESCALAS & SUBESCALAS SUBESCALAS (EJEMPLOS) (EJEMPLOS) CI: 0.470.96 TR: 0.64 CONC: 0.58 CONV: 0.29 PUNTOS DECORTE OTROS Tiempo menor de 20 minutos para completar 28 APA, 2000 RCMAS (6-19 años) Reynolds and Richmond, 1985 37 3 2 puntos TR: 0.630.85 MASC (niños y adolescentes) March, 1997 39 4 4 puntos CI: 0.600.90 TR: 0.650.93 SCARED (9-19 años) Evaluada: Birmaher, 1999 41 5 3 puntos CI: 0.780.90 TR: 0.700.90 PARS (5-15 años) Evaluada: Riddle, 2002 50 ítems (listado) y 7 ítems (severidad 2 puntos (listado) y 6 puntos (severidad) CI: 0.240.68 TR: 0.350.59 STAI-C (9-12 años) Speilberger et al., 1973 40 2 3 puntos CI: 0.820.87 TR: 0.310.71 SPAI-C (9-14 años) Beidel et al., 1988 26 3 3puntos CI: 0.920.95 TR: 0.630.86 y puntuar Tiempo menor de 15 minutos para completar y puntuar Datos normativos Versión para padres CONV: 0.63 Puntuación Tiempo menor DISC: 0.74 T > 70 de 25 minutos para completar y puntuar Versión para padres Versión breve de 10 ítems 25 o Tiempo menor CONC: puntuación de 15 minutos buena T > 70 para completar DISC: y puntuar buena Versión para padres Versión breve de 5 ítems CONV: Tiempo: 30 0.49-0.61 minutos primero, 15 minutos de administración subsiguiente Sensibilidad a los efectos del tratamiento Tiempo menor CONC: de 30 minutos 0.63-0.75 para completar CONST: y puntuar 0.29-0.54 Datos normativos según el genero CONC: 18 Tiempo: 30 0.41-0.53 minutos para CONV: completar y 0.40-0.53 puntuar Datos Normativos 70-80% Sensibilidad 80% Especificidad CONC: buena CONST: buena CONT: buena 29 SASC-R (niños) La Greca, 1999 18 3 5 puntos CI: 0.690.86 TR: 0.70 CONV: adecuada Tiempo :20 minutos para completar y puntuar FSSC-R (niños y adolescentes) Ollendick, 2002 80 5 5 puntos CI: 0.90 TR: 0.80 CONV: buena DISC: indefinida Tiempo: 30 minutos para completar y puntuar La escala puede ser unidimensional Versión breve Tiempo: variable, hasta 120 minutos para completar y puntuar CI: 0.81CONC: CY-BOCS 17 ítems 0.87 0.62 (niños y (listado) y 5 adolescentes) ítems Evaluada: (severidad) Goodman, Factores no 1991 especificados 2 puntos (listado) y 5 puntos (severidad) CI-CONSISTENCIA INTERNA, II- INTERINFORMANTE, TR-TEST-RETEST, CONCCONCURRENTE, CONV-CONVERGENTE, CONT-CONTENIDO, DISCDISCRIMINANTE, DIVG-DIVERGENTE, CONST-CONSTRUCCION Las escalas de evaluación de la ansiedad revisadas aquí comprenden aquellas que mayormente han contribuido a la psiquiatría infantil y adolescente. Sin embargo, el estudio en aumento de los trastornos de ansiedad esta produciendo nuevas escalas, tales como la Escala de Preocupaciones para Niños (Muris et al., 1998b), la Escala de Ansiedad Social para Niños de Liebowitz (Masia et al., 1999, 2001), y la Escala de Síntomas Internalizados para Niños (Michael and Merrell, 1998). Además, el Inventario de Ansiedad de Beck (BAI) (Beck and Steer, 1990) se ha reexaminado recientemente con adolescentes. ¿Qué escala debemos elegir para evaluar la ansiedad? Seleccionar una escala de nivel de ansiedad es más fácil que elegir una escala de nivel de depresión. Debido al reciente desarrollo de escalas que evalúan aspectos específicos, tales como la ansiedad social o trastornos de ansiedad basados en el DSM-IV. Aunque a estas nuevas escalas les falta la amplia experiencia necesaria para establecer claramente la validez, estudios iniciales apoyan su uso. Tanto el MASC como el SCARED poseen propiedades psicométricas iniciales adecuadas, algo de discriminación de la depresión, formatos de respuesta que detectan los efectos del tratamiento, impresos de observación breve, y versiones para padres. El MASC ofrece los beneficios adicionales de un Índice de Inconsistencia y esta disponible comercialmente con un manual para guiar su utilización. El PARS ofrece potencialmente mayor sensibilidad a los efectos del tratamiento que las escalas de autoinforme. Así, en el estudio de la ansiedad en general, una combinación del PARS y quizás del MASC o el SCARED ofrece una evaluación robusta. Cuando se evalúan construcciones de ansiedad discretas, el SPAI-C, sistemáticamente estudiado, descubre que su amplio uso para la fobia social en los jóvenes está muy identificado, estudiado y tratado. Aunque demostrando propiedades buenas, las indicaciones para el uso del SASC-R están menos claras, especialmente para la población clínica. 30 El FSSC-R tiene su propia ubicación en la evaluación del temor. El CY-BOCS también tiene su ubicación, aunque se necesitan más datos relacionados con su funcionamiento. Finalmente, los más antiguos y genéricos, C-MAS y STAI-C, y el menos estudiado HARS, son los menos recomendados. Para concluir… Las escalas de evaluación de los trastornos del humor y los de ansiedad ofrecen una gran utilidad para analizar la psicopatología de los niños y adolescentes y los planes de tratamiento. Sin embargo, no pueden ser utilizadas por casualidad. El usuario potencial debe considerar una escala particular con relación al problema que va a ser evaluado, características del sujeto, propiedades de la escala, y los objetivos de evaluación. Todas las escalas revisadas tienen defectos y habilidades. Las escalas de evaluación de la depresión sufren de una falta de validez de construcción clara. Además, varias escalas de depresión están disminuyendo en cuanto a popularidad, y por lo tanto se reduce el número de escalas de evaluación de la depresión disponibles. Por otra parte, las escalas más populares proporcionan gran cantidad de información sobre su funcionamiento. Además, estas escalas tienen versión para padres, lo que permite obtener información adicional, e impresos breves para facilitar la evaluación repetida. Las escalas de nivel de ansiedad más antiguas también sufren de falta de claridad en la construcción. En cambio, las escalas más nuevas parecen poseer una buena validez de construcción y adecuación para los niños y adolescentes pero no han sido lo suficientemente utilizadas para sacar conclusiones relacionadas con su adecuación y validez total. La mayoría también consta de versión para padres e impresos breves de observación. Su mayor desafío, y su mayor promesa, es su habilidad para discriminar los trastornos de ansiedad de los trastornos de depresión. En cualquier caso, ninguna escala es adecuada para proporcionar toda la información deseada. En general, debe utilizarse más de una escala para evaluar al paciente y asegurar así una evaluación más sólida del problema de un joven. Esto es muy importante para las escalas que evalúan los trastornos de ansiedad y humor porque tienden a solaparse en sus perfiles de construcción y síntomas. TEST Y BATERÍAS DE SCREENING NEUROPSICOLÓGICO ¿Qué evalúan los tests neuropsicológicos? Los tests neuropsicológicos evalúan un amplio abanico de funciones cognoscitivas e interpretan los datos en el contexto de una comprensión amplia de relaciones cerebroconducta. El objetivo de estos tests en niños y adolescentes es proporcionar una evaluación detallada del funcionamiento cognoscitivo del sujeto. La comparación de los rendimientos entre tests permite identificar áreas de potencialidad y debilidad, y proporciona a menudo una evaluación extensa de cómo el individuo codifica, procesa, almacena y devuelve la información. Se examinan los datos para determinar las maneras en que el "estilo" de procesamiento de la información del paciente o bien deteriora el funcionamiento o puede modificarse para mejorarlo. Aunque propiamente no son diagnósticas, las evaluaciones neuropsicológicas pueden desempeñar un papel particularmente útil en el entendimiento del déficit en muchos niños psiquiátricos y en la planificación del tratamiento. Los tests neuropsicológicos son más útiles en pacientes con un amplio abanico de trastornos basados como mínimo parcialmente en la neurología, como son las discapacidades del aprendizaje, el trastorno de la Tourette, el autismo, los trastornos generalizados del desarrollo y el trastorno por déficit de atención con hiperactividad. 31 Muchos neuropsicólogos utilizan baterías estandarizadas como la Halstead-Reitan (Reitan y Wolfson, 1993) o la batería de Luria-Nebraska (Golden y cols., 1986). Estas baterías cuentan con versiones diferentes para niños y adultos. Una batería neuropsicológica más reciente, desarrollada específicamente para niños, es la NEPSY (Korkman y cols., 1997). La NEPSY, que se ha normalizado para edades entre los 3 y los 12 años, fue diseñada para detectar déficit sutil que interfieren con el aprendizaje en cinco áreas funcionales: lenguaje y comunicación, funciones sensoriomotoras, capacidades visoespaciales, aprendizaje y memoria y actividades de ejecución. Esta última área incluye funciones como la atención, planificación y resolución de problemas. El uso de una batería estandarizada permite asegurar que la evaluación es exhaustiva en relación a la amplitud de las áreas evaluadas. Además, los datos de normalización de los tests concretos que produce la batería suelen ser adecuados, y los manuales facilitan la interpretación de las puntuaciones de los tests, que generalmente se realiza mediante varios análisis de patrones. Al usar un conjunto de tests estandarizados, una batería neuropsicológica extensa normalmente evalúa un amplio abanico de funciones sensoriales, perceptivas, lingüísticas, cognoscitivas, motoras y ejecutivas. Test Gestáltico de Bender (Bender, 1938) El Test Gestáltico de Bender (Bender, 1938) es un test muy usado en la práctica clínica de los psicólogos para descartar la presencia de daño cerebral. Cada una de las nueve cartas gestálticas de Bender presenta un dibujo geométrico y se le pide al sujeto que copie en una hoja de papel la carta situada frente a él. Esta fase de copia viene sucedida por una fase de retención en el que se le pide al sujeto que dibuje todas las figuras que recuerda. Bender no desarrolló una puntuación objetiva y estandarizada con datos normativos, se han desarrollado sistemas posteriores como es el de Koppitz (Koppitz, 1964, 1975) que da normas para niños de guardería hasta de 4 curso. El Test Gestáltico de Bender (Bender,1938) está indicado para aquellos niños que con un nivel de edad apropiado tienen dificultades copiando dibujos. Estas dificultades pueden incluir problemas con los ángulos, en la yuxtaposición, en la tendencia hacia la verticalización en diagonal o en la substitución de puntitos por círculos. Test de retención visual de Benton El Test de retención visual de Benton (Benton, 1974) se utiliza como medida de la memoria visual figurativa en adultos y en niños a partir de los 8 años. El test consiste en diez láminas, en cada una está reproducido uno o más dibujos geométricos. El manual ofrece diferentes procedimientos de administración, aunque se recomienda la estándar que consiste en pedirle al sujeto que observe bien cada lámina que se le presenta (unos 10 segundos), al retirale la lámina se le pide que reproduzca la figura de memoria. Las producciones son puntuadas sobre dos criterios, en base a la puntuación del número correcto y en términos del número total de errores. Usando las tablas que ofrece el manual estas dos puntuaciones son comparadas con una puntuación normal y con la edad y el nivel intelectual. Las puntuaciones desviadas sugieren la presencia de un déficit en la memoria visual-figurativa. Dependiendo de los datos obtenidos se hipotetiza sobre la posible presencia de déficits perceptuales, motores, o en la memoria que tendrán que ser explorados a 32 través de la administración de instrumentos adicionales ( por ejemplo: el Test de Reversal...). MEDIDAS PARA EL DESARROLLO INFANTIL Y PREESCOLAR Batería Neuropsicológica para niños Luria-Nebraska revisada (LNNB-C) La Batería Neuropsicológica para niños Luria-Nebraska revisada(LNNB-C), (Golden, 1987) ha sido desarrollada para investigar una amplia variedad de funcionamiento neuropsicológico y valorar los déficits cognitivos y ofrecer datos para guiar la rehabilitación en niños de entre 8 y 12 años. El tiempo de pasación es de dos horas y media aproximadamente. Las baterías contienen 149 ítems agrupados en 11 escalas y 2 escalas opcionales (valoran las habilidades senso-motoras, perceptuales y cognitivas), 3 escalas de resumen ( discriminan los niños normales de aquellos con daño cerebral) y 11 escalas factor (que valoran funciones específicas neuropsicológicas que merecen precaución en la interpretación). Todos los ítems reciben puntuaciones de , 0, 1, 2 y las puntuaciones elevadas indican daño cerebral. La LNNB-C es una extensión de la versión adulta de la batería (Satler, 1988). Escalas de Desarrollo Infantil de Bayley, segunda edición (BSID-II) Las Escalas de Desarrollo Infantil de Bayley, segunda edición (BSID-II) (Bayley, 1993) son una revisión de las anteriores BSID (Bayley, 1969). Como su predecesor el BSID-II valora el funcionamiento del desarrollo en niños pequeños con el empeño de detectar un retraso en el desarrollo y pautar el camino a seguir hacia una estrategia de intervención. A diferencia del BSID el BSID-II incluye datos estandarizados para poblacioens especiales como son los niños con Síndrome de Down, los prematuros o los niños que han sido expuestos prenatalmente a drogas. El BSID-II consiste en escalas mentales, motoras y conductales. La Escala Mental se centra en la temprana habilidad del niño para dirigir su atención hacia la gente u objetos apropiados en el ambiente y después en el desarrollo de la edad apropiada interactiva; habilidades del lenguaje, conceptos y memoria. La Escala Motora se focaliza en el temprano desarrollo de las habilidades finas y gruesas motoras, así como en la integración sensorial y coordinación motora-visual. Ambas escalas, la Mental y la Motora se complementan utilizando un formato flexible. El uso del sujeto de los materiales es evaluado. La escala Conductal se completa basándose en la observación informal del niño o del preescolar durante la pasación del test. Se valoran los diferentes estilos de relatar interpersonales, la accesibilidad. ESCALAS DE EVALUACIÓN: PERSPECTIVAS DE FUNCIONAMIENTO, PROPIEDADES PSICOMÉTRICAS Y SELECCIÓN. ¿Qué es una Escala de Evaluación? 33 El término “escala de evaluación” es amplio y acompaña a múltiples tipos de medidas, entre los que se incluyen listados de síntomas (cheklist), cuestionarios, inventarios, autoinformes, índices y otras medidas. La “escala de evaluación” se refiere a cualquier tipo de medida que proporciona una evaluación relativamente rápida sobre una información especifica. Proporciona una puntuación numérica que se interpreta con facilidad, y puede ser completada por el joven o por alguien más, a pesar del formato de la respuesta y lo independiente de la aplicación. De forma tradicional, el autoinforme ha sido utilizado para evaluar los trastornos internalizados y el funcionamiento emocional, mientras que los informes realizados por los padres y profesores han sido utilizados para evaluar los trastornos externalizados y la conducta. No obstante, las escalas más recientes han incorporado múltiples informantes. Existen muchos tipos de escalas, específicas o genéricas, unidimensionales o multidimensionales. Pueden estar completadas por varios informantes, cada uno proporcionando una perspectiva diferente. Los adolescentes describen sus propias percepciones. Los padres proporcionan el conocimiento más comprensivo mientras observan las variaciones en el comportamiento a través de situaciones múltiples. Los profesores informan acerca del comportamiento escolar y relacional. Finalmente, las escalas de evaluación están estandarizadas. Poseen sistemas de puntuación, y procedimientos de administración que no cambian, son estables respecto a usuarios, aplicaciones, administraciones o tiempo. ¿Cuáles son las ventajas de estas escalas? Tienen múltiples aplicaciones. Las escalas de evaluación son utilizadas para: • Observar a los grupos en los emplazamientos normativos como la escuela o la comunidad. • Observar la aparición de síntomas en los adolescentes de alto riesgo. • Asegurar la selección de sujetos homogéneos de investigación. • Evaluar los efectos de la intervención. • Determinar los resultados del tratamiento. Cubren de forma sistemática las conductas, reduciendo por ello la variabilidad en la recolección de datos. Proporcionan información cuantificable relacionada con la presencia, frecuencia, e importancia de la conducta y los síntomas. Permiten comparaciones con las administraciones múltiples, con amigos en circunstancias similares, y con la población general de otros sujetos. Permiten al paciente confirmar más fácilmente los síntomas molestos que son reacios a discutir. Pueden también revelar los comportamientos difíciles de observar. Las escalas de evaluación son fáciles de puntuar e interpretar. Son eficientes y económicas en cuanto a tiempo, coste y personal. De gran importancia para los tratamientos basados en los resultados es la información proporcionada por estos indicadores cuantificables. Finalmente, una ventaja importante es que no es necesario el entrenamiento especializado para utilizar la mayoría de escalas. Un breve entrenamiento informa sobre la interpretación de la escala, las variaciones de informantes, y sus limitaciones. El examinador debe proporcionar instrucciones estandarizadas a los sujetos que completan las escalas. 34 ¿Qué inconvenientes tienen? Los inconvenientes se relacionan principalmente con las habilidades de autoinforme de los niños y adolescentes, los objetivos del examinador acerca de la escala, y las propiedades psicométricas. Aunque los adolescentes han sido generalmente considerados como autoinformantes competentes, los factores como la evaluación de lectura, dificultades en el aprendizaje, madurez psicológica, y la experiencia pueden atenuar su competencia. La competencia de los niños es incluso menos clara. Además de los factores que afectan a la competencia de los adolescentes, los niños pueden tener limitaciones lingüísticas, falta de autoreflexión, alteración de la capacidad emocional, y pobre habilidad para observar su comportamiento, pensamiento y sentimiento. Pueden también tender a responder de una forma socialmente deseable. Pese a todos estos inconvenientes, numerosas investigaciones muestran que tanto los niños como los adolescentes pueden ser autoinformantes fiables y válidos. Sin embargo, se debe tener precaución y asegurarse de que existe un marco apropiado entre una escala particular y el joven que la completa. Otro inconveniente de estas escalas es el hecho de que el examinador pueda tener objetivos poco reales o expectativas pobremente formuladas para una escala y por ello no apreciar métodos alternativos para evaluar la misma información. Las escalas de evaluación no son instrumentos diagnósticos y no deben sustituir a la evaluación diagnóstica. Las expectativas para una escala y la información obtenida a partir de esta, deben estar claras antes de elegirla. Las desventajas relacionadas con las propiedades psicométricas son complejas, pero críticas respecto al funcionamiento de una escala. La mayoría de escalas de evaluación no tienen la suficiente información psicométrica para permitir decisiones óptimas sobre su uso. Existe una falta de datos normativos para interpretar las puntuaciones. La mayoría de las escalas tienen falta de validez. No obstante y pese a estos inconvenientes, las escalas de evaluación pueden ser muy útiles en la evaluación y tratamiento de los niños y adolescentes. ¿Qué factores afectan al funcionamiento de estas escalas? Aunque la mayoría de las escalas discriminan clínicamente a los jóvenes que acuden a consulta del resto, los niveles de error llegan hasta el 30%. El resultado de la escala se ve afectado por múltiples factores, los cuales se clasifican en: • Factores individuales, contextuales e interpersonales. • Factores relacionados con la escala. • Factores relacionados con las propiedades psicométricas. ¿En qué consisten los factores individuales, contextuales e interpersonales? Los factores individuales que pueden afectar al funcionamiento de las escalas incluyen: • Los bajos niveles de fiabilidad y validez relacionados con el nivel de desarrollo del paciente. • Las diferencias de género respecto a la obtención de puntuaciones (el género femenino obtiene mayores puntuaciones en las escalas que miden trastornos internalizados). • El factor de deseabilidad social, los jóvenes que buscan aceptación social pueden no informar de todos los síntomas, mientras que aquellos que se sienten sobreprotegidos pueden informar en exceso sus síntomas. Respecto a los factores contextuales, diversas investigaciones muestran que los autoinformes tanto de los niños como de los adolescentes están influenciados por la situación. El funcionamiento emocional y de comportamiento de los niños más jóvenes es especialmente reactivo a los factores ambientales. Los jóvenes también funcionan 35 de forma diferente a través de los distintos emplazamientos, como entre casa y la escuela, o entre la clase y el patio de juegos. Así mismo, existe una pobre concordancia entre los diferentes informantes adultos y entre los informantes juveniles y adultos. Cuatro factores son particularmente importantes relacionados con esta pobre concordancia: factores contextuales, el desarrollo del joven, la psicopatología paternal y el tipo de síntoma evaluado. • Los factores contextuales fueron discutidos con anterioridad en relación con el funcionamiento diferencial del joven. Generalmente, las madres tienden a elevar los síntomas de los niños más que los padres, quizás sugiriendo los diferentes contextos que los jóvenes experimentan con cada padre. • En cuanto al desarrollo se refiere, cuanto mayor el niño, mejor concordancia entre los informes de los jóvenes y los adultos. • La concordancia en todas las edades desciende cuando las madres están deprimidas, ya que informan en exceso los síntomas depresivos y posiblemente los problemas de comportamiento en sus hijos. Otros factores que afectan a la madre pueden también influir en la percepción de su hijo. • El tipo de síntoma también es relevante. Padres e hijos coinciden más respecto a comportamientos concretos y observables como los suspensos en la escuela o las peleas, pero poco sobre los síntomas psicológicos como la tristeza o el pensamiento suicida. En general, los padres son mejores informantes de comportamientos observables (conducta) y los jóvenes son mejores informantes de síntomas internos (pensamiento y sentimiento). ¿Cuáles son los factores relacionados con la escala? Es importante conocer el contexto en el que la escala se desarrolló y decidir si es suficientemente similar con el contexto en el que se aplica actualmente, para asegurar la variabilidad mínima en su funcionamiento. Una preocupación particular es el grado con el que la escala mide la complejidad de un problema. El ámbito de una escala puede ser demasiado específico para ayudar a definir las implicaciones clínicas, o por el contrario, demasiado general para medir aquello que es objeto de interés. En ocasiones, las escalas no proporcionan un número óptimo de opciones de respuesta para un propósito determinado. El tipo de opciones de respuesta es vago (Ej., nunca, a veces, a menudo) y confunde a los jóvenes. Por otra parte, si las opciones de respuesta son demasiado precisas (Ej., nunca, semanalmente, mensualmente), la fiabilidad y validez pueden verse comprometidas. La longitud de la escala también es importante. Generalmente, una escala más larga demuestra mejores propiedades psicométricas, pero puede hacer afectar a la habilidad del joven para mantener el interés y responder adecuadamente a lo largo de toda la administración de la escala. Si las propiedades de la escala no se revisan, los cambios y la evolución de la psicopatología, los cambios en el desarrollo de los jóvenes y otros factores pueden alterar la aplicabilidad de la misma. Así mismo, las versiones de una escala han de conllevar una revisión de las propiedades psicométricas. 36 ¿Qué propiedades psicométricas son importantes? Las escalas de evaluación no proporcionan “la verdad”. Representan medidas de una variable La medida es el proceso sistemático de asignar un número a su variable. Sin embargo, tal medida esta sujeta a error, y por lo tanto a la variabilidad de funcionamiento. Las propiedades psicométricas proporcionan una estimación de este error, y por tanto revelan como de relevantes podrían ser estas puntuaciones para una aplicación seleccionada. Desdichadamente, la mayoría de escalas no proporcionan todos los datos psicométricos deseados para seleccionar la mejor escala; e incluso cuando tales datos están disponibles, pueden no ser óptimos. El usuario debe entonces decidir qué propiedades se acoplan mejor a las necesidades de una aplicación particular. Un factor psicométrico importante que afecta a la variabilidad es la elección de una puntuación de corte. Éstas son útiles para identificar a los individuos para futuras evaluaciones clínicas, pero siempre representan un contravalor entre la sensibilidad y la especificidad. Los puntos de corte pueden alterar enormemente la elección de quién será considerado clínicamente significativo y quien no recibirá más intervención. La conversión de las puntuaciones simples a puntuaciones T proporciona una mayor estandarización así como una comparación útil con relación a todos los demás examinadores. Las puntuaciones T mayores de 70 representan 2 DS por encima de la media (T=50) y son consideradas estadísticamente significativas, pero puntuaciones inferiores pueden ser clínicamente significativas. La adhesión estricta bien a las puntuaciones de corte simples o a las puntuaciones T para definir la importancia clínica puede desestimar a pacientes con necesidad de tratamiento. Otro aspecto importante de las escalas son los datos normativos. Proporcionan información sobre la representatividad del funcionamiento de una escala. Deben ser representativos de la población actual y deben ser estratificados en variables relevantes que muestren diferencias en las puntuaciones, normalmente edad y género, pero a menudo también la etnia y geografía. Los valores normativos se ven afectados por los niveles basales de la característica que se mide, así como su distribución en la población. ¿Qué entendemos por fiabilidad? La fiabilidad está relacionada con la precisión del instrumento de medida. Hace referencia a la consistencia con que todos los ítems de una escala miden una misma característica, y la consistencia con la que la escala total mide dicha característica de la misma forma cada vez. Existen 4 aproximaciones para la fiabilidad: • Fiabilidad interna o consistencia interna: consistencia de los ítems que comprenden la escala. • Fiabilidad test – retest o estabilidad: estabilidad de la escala a través del tiempo y diferentes medidas. • Fiabilidad Inter-jueces: acuerdo entre los diferentes evaluadores que utilizan la escala. • Fiabilidad paralela: concordancia entre formas similares de una escala. La fiabilidad interna… La fiabilidad interna, o consistencia interna, mide la homogeneidad de la escala. Representa el grado de coherencia entre los diferentes ítems de la escala, obteniéndose a través de ellos la misma información. Es decir, cuando la correlación entre las respuestas a los distintos ítems es positiva, siempre que todos evalúen la característica de que se trata en el mismo sentido. Los ítems que no son internamente consistentes son eliminados de la versión final de la escala. Las escalas que miden una sola característica se suponen de mayor fiabilidad interna. Las escalas multifactoriales, o aquellas que comprenden una amplia variedad de 37 síntomas, poseen menor fiabilidad interna. En general, las escalas de evaluación más amplias tienden a tener una consistencia interna mayor que las escalas más exiguas. Existen diversas formas de medir la consistencia interna. La más común es el Coeficiente α de Cronbach, una medida de la evaluación de relación entre todos los ítems. Otra forma de medir la consistencia interna es el método de las dos mitades. Consiste en dividir la escala en dos mitades que constituirán dos medidas equivalentes de la misma característica. Estas dos mitades pueden ser elegidas de varias formas, por ejemplo, la primera mitad con la última mitad de los ítems, incluso números pares con números impares, o selección al azar de ítems de cada grupo. Este diseño plantea algunos inconvenientes, ya que reduce el número de ítems evaluados mediante correlaciones. Por ello se aplica un procedimiento donde se aplica la fórmula de Spearman-Brown (aplicación del coeficiente alfa a la suma de ítems estandarizados). Para cualquiera de estos diseños de fiabilidad interna, los coeficientes que exceden el 0.80 sugieren que la escala es generalmente consistente. Sin embargo, un coeficiente de 0.80 también significa que el 20% de la puntuación de la escala se debe a un error casual. Así, cuanto mayor es el coeficiente de fiabilidad más confianza da al evaluador. La fiabilidad test-retest… La fiabilidad test-retest, o estabilidad, evalúa si una escala es estable con el tiempo. Si la variable medida no ha cambiado, entonces las puntuaciones de una escala deberían de ser similares a través de las diferentes administraciones, y la estabilidad debería de ser alta. La fiabilidad test-retest es muy importante cuando una escala se utiliza para evaluar el progreso del tratamiento. Si una escala no es estable, entonces es imposible determinar si un cambio medido es real o representa un error casual en la escala. Una correlación mayor de 0.80 para dos administraciones (con un intervalo temporal de una a dos semanas) de una escala sugiere una estabilidad adecuada. Para las administraciones con un intervalo superior a un mes, una correlación mayor de 0.70 se considera una estabilidad razonable. Fiabilidad Inter-jueces… La fidelidad inter-jueces representa el acuerdo, o concordancia, entre los diferentes informantes. Los informantes pueden incluir informantes no expertos, como los adultos que son familiares con el joven, pero la fiabilidad inter-jueces es más relevante para escalas basadas en síntomas que requieren un formato de entrevista estructurada. El entrenamiento es necesario para asegurar que los múltiples evaluadores están puntuando los ítems por igual, es decir, están utilizando la escala de forma consistente. Para evaluar su concordancia, las correlaciones pueden realizarse entre las puntuaciones totales de la escala así como los ítems individuales. De nuevo, las correlaciones mayores de 0.80 son aceptables. Fiabilidad paralela… La fidelidad de formas paralelas también evalúa el acuerdo entre diferentes entidades, pero esta vez entre dos formas de una escala. Cuando tales formas paralelas de una escala existen, como las versiones del padre y el hijo o las versiones largas y cortas, deben mantener la misma información y sus puntuaciones deben estar muy relacionadas. Las correlaciones mayores de 0.80 apuntan una fiabilidad paralela correcta. ¿Qué es la validez? La validez pertenece a si la escala evalúa adecuadamente lo que estaba diseñada para evaluar. Es el grado en que una determinada inferencia a partir de una escala es apropiada o significativa. Se trata pues, de determinar hasta que punto un test es útil 38 para extraer de él determinadas conclusiones. Esto es un aspecto importante para las escalas que miden la psicopatología infanto-juvenil debido a la cuestionable validez de los diagnósticos infantiles, los criterios diagnósticos cambiantes y la historia natural del curso de los trastornos infanto- juveniles. Existen tres tipos importantes de validez: contenido, criterio y validez de constructo. 39 Validez de contenido… La validez de contenido evalúa si los ítems de la escala representan la entidad que se está midiendo. Suele estar asegurada mediante la creación de ítems a partir de los criterios diagnósticos o los síntomas del trastorno de interés o por medio del examen cuidadoso de los niños y adolescentes con el trastorno. Existen dos aproximaciones básicas con relación a esta validez: la validez externa y la validez lógica del contenido. La validez externa hace referencia al poder de generalización de los resultados obtenidos. Es determinada por el examen simple de los ítems y juzga subjetivamente si parecen estar midiendo el área de contenido. La validez lógica de contenido es más sistemática. Hace referencia a si la escala cubre el dominio de contenidos por completo, y si los ítems son representativos de todas las áreas que deberían estar incluidas. Sin embargo, esta información no siempre esta disponible. Validez de criterio… La validez de criterio ofrece una mayor profundidad que la validez de contenido. Está basada empíricamente, evalúa la relación con otras escalas (con validez establecida) que miden la misma característica. Las correlaciones con estas escalas proporcionan mayor seguridad sobre si la escala mide lo que se supone que tiene que medir. Existen 2 tipos de validez de criterio: la validez predictiva y la validez concurrente. La validez predictiva determina si un test es útil para predecir el comportamiento futuro de los individuos, para clasificarlos en un determinado grupo clínico o con relación a cualquier otro criterio interesante. La validez concurrente se refiere a la relación de una escala con un evento que es evaluado al mismo tiempo que se administra la escala. Tiene a su vez dos tipos: la convergente y la discriminante. La validez convergente es la extensión hacia la cual la escala se relaciona con alguna variable relevante teóricamente con la cual debe relacionarse, es decir, cuando dos medidas distintas de la misma variable coinciden en los resultados. La validez discriminante compara la puntuación de una escala para un grupo que es conocido como poseedor del trastorno con un grupo que es conocido como no poseedor del mismo. Si la escala es válida, entonces estos dos grupos deben tener diferentes puntuaciones. Validez de constructo… La validez de constructo hace referencia al hecho de que la estructura de relaciones de la escala es de la forma prevista por la teoría. Para considerar una escala como poseedora de validez de constructo debe poseer validez discriminante y convergente. Así la validez de constructo muestra que la escala converge y diverge de otras variables apropiadas. La validez convergente y discriminante de una escala se evalúan utilizando un procedimiento estadístico conocido como análisis factorial. Este deriva grupos de variables que miden aspectos separados del trastorno. Si las variables son similares, se relacionan con el mismo ítem, demostrando una validez convergente. Las variables no asociadas con un ítem particular sugieren una validez discriminante. Alternativamente, la validez factorial esta determinada por la evaluación de si los ítems individuales se relacionan con la puntuación total de la escala y no se relacionan con las variables no relacionadas. Durante la interpretación de escalas, la fiabilidad se determina en primer lugar. La habilidad de la escala para actuar de manera similar en cada ocasión debe ser asegurada para evaluar su habilidad para medir una interpretación. En otras palabras, el error del azar debe ser minimizado para detectar cualquier error sistemático en la escala. Así, para ser válida, una escala debe ser de alguna forma fiable. No en cambio al contrario. Ninguna escala es completamente fiable y válida. 40 ¿Qué factores debemos tener en cuenta al seleccionar una escala? Para elegir la mejor escala, varios factores deben tenerse en cuenta: • La estabilidad. • La utilidad, que representa las ventajas prácticas que la escala ofrece y esta influenciada por el cómo de útil será la información y cómo de fácil su utilización. • La adecuación, entendida como una estimación de la propiedad de la escala para las habilidades del joven. Una escala desarrollada para un adolescente no será aplicable para un joven en tercer grado con una incapacidad en el aprendizaje. • La reactividad, que se refiere a como el acto de medir algo puede cambiarlo. Esto puede ser deseable para algunas intervenciones en las que la medida tiene la intención de provocar un cambio de comportamiento pero no es deseable con las escalas de evaluación que sólo intentan observar el cambio a partir del tratamiento. • La apropiación se refiere a cómo de compatible es una escala con la evaluación deseada. Las escalas más apropiadas son válidas, estables y sensibles; miden el problema de una forma directa y no reactiva; tienen utilidad y son adecuadas. RESULTADOS DE LOS TESTS PSICOLÓGICOS Para obtener un mayor beneficio y utilidad del test psicológico es necesario un resumen de cada uno de los diferentes dominios valorados y analizar las interrelaciones entre los dominios valorados y el perfil individual con los puntos fuertes y débiles en cada dominio global. Esto debe ser así porque con una actuación idéntica en un área de funcionamiento de diferentes jóvenes pueden tener implicaciones distintas dependiendo de cómo cada uno de ellos han actuado en otras áreas, por ejemplo: una evidencia proyectiva de una alta originalidad, riqueza de los procesos mentales es reaseguradora y poco remarcable con un chico que tiene un CI alto. El mismo dato proyectivo de un chico CI Borderline incrementa la importancia de cuestionarse si la medida de la inteligencia del niño se ha realizado correctamente. ¿Cómo se deben comunicar los hallazgos del test psicológico? Los resultados deben ser comunicados con un lenguaje comprensible, con tacto y sensibilidad. Hay que tener en cuenta de quién parte la demanda del test, si viene derivado de otro profesional, los resultados deberán ser comunicados inicialmente a dicho profesional, así se decide conjuntamente cómo proceder con la información. Se puede elegir dar los resultados junto al profesional y la ventaja de esta presentación es que todo lo que se apunta está compartido, entendiendo al niño o al adolescente multidimensionalmente. Cuando hay problemas para el encuentro el psicólogo da los resultados, enviando los datos al profesional que ha realizado la consulta. Esta opción permite mantener una mejor alianza terapéutica con el paciente y la familia, y así se puede empezar a incorporar los datos obtenidos en el test. 41 Hay que plantearse también la opción de comunicar directamente al adolescente los resultados del test, siempre y cuando se tenga la aprobación parental. Algunos niños prefieren salvaguardar su autoestima recibiendo los datos del test de forma privada. Las habilidades del niño o del adolescente deben ser enfatizadas y sus déficits discutidos de forma empática y con recomendaciones esperanzadoras. 42