TEMA 5: CONDICIONAMIENTO INSTRUMENTAL: OTROS FENOMENOS. 5.1.- Extinción de conductas adquiridas por recompensa La extinción, como hemos visto, es el procedimiento por el cual se deja de administrar el consecuente a continuación de una R. Su efecto general termina por ser la reducción o desaparición de la R. La extinción es un fenómeno que reviste especial importancia en al menos los siguientes aspectos: La resistencia a la extinción de una R aprendida mediante un cierto procedimiento de adquisición es un indicio del poder a largo plazo de ese procedimiento para esa R; se ha comprobado que no suele haber coincidencia entre los procedimientos de adquisición cuyo efecto es más poderoso a corto plazo (e.g., que generan en seguida una alta tasa de respuestas) con aquellos cuya persistencia temporal es mayor una vez que se suspende la contingencia. El procedimiento de extinción es por sí mismo una técnica de aprendizaje que puede contribuir a eliminar respuestas inapropiadas de un organismo cuando se pueden eliminar las contingencias que las mantienen. De hecho, en algunos casos constituye el mejor método para suprimir una R indeseada. 5.1.1. Curso temporal de la extinción. El procedimiento de extinción no produce sólo un efecto de atenuación progresiva de la R. En realidad, es característico que en el proceso ocurra además lo siguiente: Al principio de la fase de extinción de una R previamente condicionada se produce un aumento de tasa de respuesta. La intensidad de la RC aumenta notablemente al principio de la extinción (por ejemplo, el animal hace más fuerza sobre la palanca). • La combinación de este fenómeno y el anterior (respuestas muy frecuentes e intensas al principio de la extinción) se conoce como explosión de respuesta o pico de respuesta. Es transitorio y se debe manejar con sumo cuidado en las intervenciones. La morfología de la R se hace progresivamente más variable, es decir, cuando el organismo emite la RC lo hace con movimientos cada vez menos homogéneos. Se produce un aumento de frecuencia de conductas alternativas a la R en extinción que ya estaban presentes al principio de la adquisición y se habían reducido en el curso de ésta. En lo que se refiere a este punto y al anterior, la evolución de la conducta durante la extinción es justamente opuesta a la que ocurre durante la adquisición. 1 Condicionamiento Tema 5 • Con frecuencia aparecen estados emocionales alterados en el organismo (frustración). Por ejemplo, en bastantes casos aumenta significativamente la probabilidad de conductas agresivas a congéneres presentes en la situación. • La R extinguida presenta a menudo recuperación espontánea pasado un tiempo, si bien tiende a volver a decaer rápidamente. Si se repiten las situaciones de extinción, la recuperación espontánea es cada vez más débil y transitoria. La recuperación espontánea ocurre más probablemente si el organismo es situado en condiciones estimulares similares a las de la fase de adquisición. 5.1.2. Factores de la extinción. Los principales son los siguientes: • En general, las respuestas adquiridas rápidamente a base de recompensas cuantiosas se extinguen más rápidamente. • En la mayoría de los casos, una mayor cantidad de entrenamiento previo aumenta la resistencia de la R a la extinción. El sobreaprendizaje, (recuérdese: el mantenimiento de las condiciones de adquisición una vez alcanzado el nivel criterio de aprendizaje) tiene casi siempre este efecto, a menos que la recompensa utilizada durante la adquisición sea de gran magnitud, en cuyo caso suele predominar lo dicho en el punto anterior. • Programa de refuerzo durante la adquisición: El empleo de programas de refuerzo parcial durante la adquisición da lugar a un aumento en la resistencia de la respuesta a la extinción. Este efecto, sumamente general entre especies y sistemas de respuesta, se conoce como ERPE (“Efecto del Refuerzo Parcial en la Extinción”) ♦ El porcentaje total de Rs recompensadas durante la adquisición es inversamente proporcional al tiempo requerido para la extinción. Es decir, las Rs adquiridas mediante programas "exigentes" son más resistentes a la extinción que las adquiridas mediante programas "prolijos". ♦ En general, la introducción de cambios en el programa de refuerzo durante la fase de adquisición aumenta la resistencia a la extinción de la R. En un organismo sometido a refuerzo continuo, la introducción de un periodo, aunque sea breve, de ref. parcial al final de la fase de adquisición prolonga notablemente el mantenimiento de la R durante la subsiguiente fase de extinción. 2 Condicionamiento Tema 5 5.2.- Programas de refuerzo no-básicos Vamos a ver sólo algunos ejemplos: 5.2.1.- Programas de duración y tasas bajas 5.2.1.1. Programas RDB Significa “Reforzamiento Diferencial de tasas Bajas”. Se da recompensa a una R sólo si no ha habido otra anterior en un determinado tiempo. Cada vez que el organismo da una respuesta sin que haya transcurrido el periodo exigido, éste se "reinicia". Es decir, el "periodo muerto" comienza con cada respuesta dada por el organismo. En esto es muy importante distinguirlos de los programas de intervalo, en los que dicho periodo se cuenta a partir de la última recompensa administrada. El efecto de los RDB es que se consigue mantener la respuesta, pero a tasas tan bajas como se quiera. Bastante empleados en intervenciones clínicas y educativas. 5.2.1.2.Programas de duración Se recompensa la conducta si se mantiene constante y sin interrupción durante un determinado periodo de tiempo. Por ejemplo, podemos recompensar a un perro por caminar al lado de su amo o entrenador durante 3 minutos sin adelantarse, atrasarse o separarse. Son muy importantes en la práctica, ya que a menudo el objetivo de intervención es lograr conductas persistentes (prestar atención en clase, mantenerse en la tarea, etc.) 5.2.2.- Programas concurrentes Dos o más respuestas distintas, accesibles al organismo al mismo tiempo, sometidas cada una de ellas a un programa de refuerzo distinto. En el caso típico de laboratorio se emplean cajas de Skinner modificadas, con dos o más palancas. 3 Condicionamiento Tema 5 Palanca A Comedero Palanca B Reflejan el hecho de que los organismos, en condiciones naturales, tienen normalmente más de una respuesta posible ante una situación, sometidas cada una de ellas a diferentes contingencias de reforzamiento. La "elección" de un operante por parte de un organismo no depende sólo de las contingencias de refuerzo asociadas a ese operante, sino también de las respuestas alternativas y sus respectivas contingencias. Como es evidente, puede diseñarse una gran variedad de programas concurrentes. Consideraremos sólo dos ejemplos dotados de especial interés. 5.2.2.1. Ejemplo: programas concurrentes RF-RF: Dos respuestas, A y B, cada una sometida a un programa de razón fija con valor distinto; por ejemplo, A: RF-5 y B: RF-15 Con suficiente entrenamiento, los sujetos tienden a maximizar el número de respuestas sometidas al programa de razón más baja. Si la diferencia es suficiente, llegarán a eliminar totalmente las Rs sometidas a programa de razón más alta. Obsérvese que los organismos tienden a hacer lo óptimo para obtener el mayor número de recompensas. 5.2.2.2. Ejemplo: programas concurrentes IV-IV Dos respuestas A y B, cada una de ellas sometida a un programa de IV con un valor distinto. El hecho más significativo que se ha observado respecto a este tipo de programa es que los organismos tienden a comportarse de forma que obtienen el máximo número posible de recompensas. Herrstein (1961) formuló este resultado bajo la forma de la Ley de Igualación ("Matching Law"): las tasas relativas de A y B tienden a igualarse a las respectivas tasas de refuerzo. Es decir, si una de las respuestas está sometida a un programa mucho más "rentable" (p.ej., IV-5 IV-30), el organismo tenderá a emitirla con mucha 4 Condicionamiento Tema 5 más frecuencia que la otra. Si la diferencia de "rentabilidad" es menor (por ejemplo, IV-30 IV-35), el organismo emitirá la R más rentable un poco más frecuentemente que la otra. 5.2.2.3. Programas concurrentes encadenados y conducta de elección Los programas concurrentes encadenados tienen dos fases, llamadas “fase de elección” y “fase de respuesta” (o “fase terminal”). En la fase de elección el organismo no recibe recompensa por ninguna de las dos Rs disponibles, sino que mediante ella establece cuál será el programa activo en la fase siguiente. En la fase terminal, por tanto, estará activo únicamente el programa “elegido”; el manipulador (palanca, etc.) correspondiente a la R no elegida queda desactivado. A medida que progresa la situación de adquisición, el organismo aprende a elegir el programa más “rentable”. Se ha comprobado que, ceteris paribus, los organismos tienden a preferir programas variables. 5.2.2.4. Conducta de elección y autocontrol En la fase terminal la respuesta A está asociada a un programa con una recompensa pequeña e inmediata, mientras la B da una recompensa muy grande con demora alta. Los organismos eligen sistemáticamente A. Es fácil ver la relación de esta preparación experimental con situaciones problemáticas de la vida humana: a menudo las personas no logran escoger la recompensa de alta demora aunque lo deseen (considérese el caso de los hábitos alimentarios, relacionados con la salud, etc.) Rachlin y Green (1972) demostraron que esta elección se invierte si entre ambas fases se interpone una demora igual para ambos programas (autocontrol). Este resultado tiene significativas aplicaciones de cara al tratamiento de diversos problemas en psicología humana. 5.2.2.5. Resultados generales sobre programas concurrentes: El análisis temporal (momento a momento) de las sesiones de programas concurrentes muestran que el organismo aprende a emitir en cada momento la respuesta que hace máxima la probabilidad de reforzamiento. Considerando la sesión globalmente, el organismo iguala las tasas relativas de R a las de refuerzo (IV-IV) o bien maximiza la respuesta más "rentable" (RF-RF). Lo más significativo es que el organismo consigue aprender a hacer lo más conveniente en cada caso. Una conclusión importante desde el punto de vista aplicado es que, a efectos de eliminar una conducta indeseada, podemos trabajar aumentando la tasa de refuerzo de otras conductas alternativas e incompatibles con ella. 5 Condicionamiento Tema 5 5.3.- Casos especiales de condicionamiento instrumental 5.3.1. Conducta supersticiosa Este fenómeno fue descubierto por Skinner en 1948. Al dejar a palomas, deprivadas hasta el 75% de su peso, en una caja experimental y alimentarlas a intervalos regulares (15 sg.) con independencia de su conducta, muchas de ellas (seis de ocho) resultaron aparentemente condicionadas, de forma que la conducta que estuvieran realizando en el momento anterior a la administración de comida resultaba reforzada. Así, un sujeto aprendió a dar vueltas, otro a balancear la cabeza; otro a introducir la cabeza en un ángulo de la caja, etc. Los animales se comportaban exactamente como si la conducta causara la administración de comida, y de ahí la denominación de "conducta supersticiosa". Muchos prefieren, sin embargo, el nombre más sobrio de “condicionamiento accidental. Parece plausible que este fenómeno tenga alguna relación con la persistencia de algunas conductas erróneas (prejuicios, rituales, supersticiones...). En el caso humano, sin embargo, no constituye ni mucho menos la única explicación, ya que muchas supersticiones comunes se deben a la transmisión cultural, y no a que el individuo haya experimentado una situación comparable a la del experimento de Skinner. 5.3.2. Condicionamiento operante verbal En el CO verbal se emplean como reforzadores emisiones verbales por parte del psicólogo ("bien", "mal", "m-mm", etc.), y la respuesta con la que tales emisiones se hace contingente puede ser también verbal (por ejemplo, palabras en plural, sustantivos con raíz latina, cultismos, etc.). Se comprueba que: Los sujetos aumentan la frecuencia de la respuesta. Aun cuando parece claro que el condicionamiento no es ni mucho menos el fenómeno central del lenguaje, lo cierto es que sí tiene cierto poder para modificar aspectos puntuales de las emisiones verbales. Los sujetos a menudo no son capaces de explicar lo que está pasando. Aun cuando en algunos casos se ha comprobado que los sujetos detectan que están siendo sometidos a un procedimiento sistemático, normalmente no se dan cuenta de en qué consiste, y cuando llegan a captar que hay recompensas verbales según un patrón, sus explicaciones del procedimiento no son correctas (aunque los efectos del procedimiento sí son los esperados). Por lo tanto, el condicionamiento verbal ocurre de forma ajena a la conciencia (de otro modo, no cabría hablar de "condicionamiento" propiamente dicho). El condicionamiento operante verbal tiene una gran importancia práctica, tanto en contextos profesionales (clínica, educación, etc.) como incluso en situaciones naturales de interrelación con otros. 6 Condicionamiento 5.3.3. Tema 5 Efectos de interferencia en evitación/escape. Este efecto se ha probado, por ejemplo, aplicando a perros descargas muy intensas. Para parte de los sujetos (control), las descargas son evitables mediante alguna respuesta. Para otros (grupo experimental), no hay posibilidad de evitación o escape. Tras un periodo de 24 horas, los mismos animales son expuestos a un procedimiento de evitación-escape en una caja de lanzadera. Se comprueba que los sujetos que habían sido sometidos a descargas incontrolables no aprenden. Esto es lo que se denomina efecto de interferencia. En el caso de organismos muy jóvenes, la conducta de evitación-escape puede llegar a aprenderse, pero con mucha más dificultad. La máxima interferencia (incluso permanente) se consigue con descargas de larga duración e intensidad media. Este fenómeno está en la base del concepto de indefensión aprendida, propuesto por Seligman: el animal ha aprendido que no hay manera de defenderse de las descargas, y este aprendizaje “bloquea” el de posteriores respuestas de evitación y escape. Existe evidencia de que este mismo principio explica algunas de las manifestaciones características de ciertos trastornos del estado de ánimo en sujetos humanos. 7