Condicionamiento instrumental: el entrenamiento de recompensa.

Anuncio
TEMA 3: CONDICIONAMIENTO INSTRUMENTAL: EL ENTRENAMIENTO DE RECOMPENSA
3.1 Concepto y tipos de reforzadores positivos
Como ya se ha visto, un reforzador es un suceso que cuando sigue sistemáticamente a una
respuesta, aumenta su fuerza, su probabilidad o su frecuencia futura. A estas alturas ya debe
quedar claro que un refuerzo es un concepto definido a posteriori: lo es porque funciona como
tal. Si probamos a reforzar una conducta con un determinado suceso y la conducta no aumenta,
entonces ese suceso NO ha actuado como reforzador para ese organismo. Un refuerzo es un
refuerzo porque refuerza.
Los refuerzos o reforzadores pueden ser:
•
•
•
Estímulos concretos, simples (p.e., un trocito de comida, una sonrisa)
Configuraciones estimulares complejas (p.e. un amplio conjunto de signos de aprobación
que incluya gestos, palabras y tonos de voz)
Posibilidades conductuales: p.e., permiso para usar la consola durante un tiempo, jugar
con el perro un rato a su juego favorito).
3.1.1. Principio de Premack
De acuerdo con este autor, de forma general, el reforzamiento se produce cuando una
conducta de baja probabilidad va seguida sistemáticamente por la posibilidad de
realizar una conducta de alta probabilidad.
Las conductas de alta probabilidad son aquellas que un organismo tiende a realizar
frecuentemente cuando puede. Por ejemplo, comer o beber son conductas de alta probabilidad
en la mayoría de los animales. Comer un bombón o un caramelo es una conducta de alta
probabilidad en la mayoría de los niños (no tanto comer verduras).
Por el contrario, pulsar una palanca o ponerse en dos patas son conductas de baja probabilidad
en los perros, y ordenar la habitación es una conducta de baja probabilidad en la mayoría de
los niños. Es decir, la alta probabilidad se corresponde bastante con lo que en lenguaje
ordinario diríamos “cosas que le gusta hacer”.
Según Premack, pues, el refuerzo positivo consiste siempre en permitir al organismo una
conducta de alta probabilidad si efectúa una de baja. Así, el refuerzo a la pulsación de palanca
de la rata no es la comida en sí, sino la posibilidad de comer.
No todos los psicólogos consideran acertado el principio de Premack. Por fortuna, a casi todos
los efectos empíricos y prácticos, resulta bastante indiferente que pensemos que el reforzador
sea la propia comida o que sea la posibilidad de comer.
3.1.2. Reforzadores primarios y secundarios
Son reforzadores primarios los que actúan como reforzadores de manera general para todos
los miembros normales de una especie, y lo hacen de forma esencialmente innata.


Comida, bebida, sueño, sexo, etc. No son muchos ni muy fáciles de manejar.
En nuestra especie están muy matizados por el aprendizaje individual, cultural, etc.
1
Condicionamiento
Tema 3
Son reforzadores secundarios aquellos cuya capacidad de reforzar no se debe a razones
innatas, sino a aprendizajes previos del organismo.


Algunos son reforzadores condicionados: han adquirido sus propiedades reforzadoras por
condicionamiento clásico. Por ejemplo, el sonido de la palanca que presagia la comida, o el
clicker utilizado en el adiestramiento de animales.
Otros son secundarios pero no han sido aprendidos por condicionamiento. Por ejemplo, el
dinero, la victoria en un juego o deporte, etc.
3.1.3. Reforzadores particulares en Homo sapiens:
Algunos reforzadores actúan especialmente bien en los seres humanos por combinación de
nuestras características etológicas (somos hipersociables, jerárquicos, etc.) y el influjo de la
cultura y el contexto concreto en que nos desarrollemos. Por ejemplo:



Atención por parte de otros. Gestos de comprensión, interés, etc.
Signos de aprecio, valoración, prestigio, jerarquía.
Logro, victoria, triunfo, éxito…
3.2 Entrenamiento de recompensa: Principales factores
Aunque son muchos los factores (variables independientes) que pueden influir en la efectividad
del entrenamiento de recompensa, vamos a considerar sólo los más generalmente significativos.
El más importante de ellos, el programa de refuerzo, lo tratamos con cierto detalle en último
lugar, en punto aparte (3.3).
3.2.1. Magnitud del reforzador
Aumentos en la cantidad de la recompensa mejoran la actuación del organismo en la
situación de adquisición, pero no la persistencia de lo aprendido.
 Aumentos en la calidad producen el mismo efecto. Por ejemplo, usando como reforzador
agua azucarada se mejora el nivel de ejecución respecto al uso de agua pura. Un caso
extremo lo constituyen los experimentos de Olds con estimulación directa del hipotálamo.

Sin embargo, en el caso general, las recompensas cuantiosas y/o de alta calidad suelen dar
lugar a conductas que se extinguen más fácilmente.
Para implantar conductas duraderas sólidamente, es preferible utilizar recompensas
pequeñas, sobrias.
3.2.2. Demora de la recompensa



Es el intervalo respuesta-recompensa. Afecta drásticamente al aprendizaje, en el sentido de
que a mayor demora, menos aprendizaje. A partir de un determinado punto, el organismo no
aprende.
Demoras superiores a unos 30 sg. parecen no producir ya CI, aunque hay variaciones entre
especies y sistemas de respuesta. Por ejemplo: con ratas, laberintos y comida, la demora
tolerada por los organismos para lograr un nivel alto de aprendizaje se sitúa entre 2 sg. y 5
sg.
Sin embargo, se obtienen buenos niveles de aprendizaje con demoras mayores, debido a la
acción de estímulos (e.g., el 'clic' de la palanca) que actúan como reforzadores secundarios.
En este caso, en realidad lo que ocurre es que la demora es mucho menor de lo que parece si
sólo consideramos la R y el primario.
2
Condicionamiento
Tema 3
El condicionamiento funciona idealmente cuando el refuerzo (primario o secundario) es
inmediato a la conducta, y pierde eficacia rápidamente al aumentar la demora.
3.2.3 . Impulso



Se refiere al estado motivacional del organismo respecto a aquello que vamos a usar como
recompensa.
Se define en términos de porcentaje del peso perdido, nº de horas de privación de agua, etc.
El resultado general es que la actuación es tanto mejor cuanto mayor es el impulso (más
peso perdido, más horas de privación, etc.), salvo en casos extremos.
3.3. Programas de refuerzo
Hasta ahora hemos considerado sólo el caso en que la realización por parte del organismo de la
conducta elegida va siempre seguida de la consecuencia establecida (la probabilidad del
estímulo reforzador dada la respuesta operante es igual a 1). Esto (que constituye una
contingencia total) es lo que se denomina refuerzo continuo.
El refuerzo continuo no es la única (ni la más eficaz) alternativa para el aprendizaje por CO; por
el contrario, constituye sólo un caso muy particular.
Los casos en que la contingencia de refuerzo (la relación respuesta-consecuente) no es completa
(es decir, no toda emisión de la respuesta va seguida del consecuente) se denominan
situaciones de refuerzo parcial o intermitente.
Es fácil ver que el refuerzo parcial es lo más común en situaciones naturales (ajenas al
laboratorio o la clínica): en la vida real es extremadamente raro que las conductas normales de
un organismo tengan éxito (=obtengan reforzador) en el 100% de los casos.
Un programa de refuerzo es una regla que especifica bajo qué condiciones la emisión de la
respuesta va a ser seguida del reforzador, es decir, la pauta con la que las respuestas son
reforzadas.
El programa de refuerzo es, según muchos autores, una de las variables independientes más
poderosas de la psicología, en el sentido de que conociendo el programa concreto recibido por
un organismo, se pueden predecir confiablemente muchas cosas respecto a la conducta
adquirida.
Como es evidente por su definición, es posible una infinidad de programas de refuerzo
diferentes. Aquí veremos sólo algunos de los más importantes, que se pueden clasificar en los
siguientes tipos:
•
Programas básicos o simples: trabajan con una sola respuesta, que se refuerza siguiendo
una regla sencilla (una única exigencia).
•
Programas complejos: se aplican a una sola R, pero combinan las exigencias de dos
programas básicos.
•
Programas concurrentes: se aplican a dos o más operantes en la misma, cada uno
sometido a un programa de refuerzo distinto
•
Otros: No pertenecen a ninguna de las anteriores categorías, pero revisten importancia
práctica: programas de reforzamiento diferencial de tasas bajas, programas de duración,
etc.
3
Condicionamiento
Tema 3
3.3.1. Programas básicos.
Los programas básicos (también llamados "simples") pueden ser
•
•
De razón: se recibe la recompensa sólo tras la emisión de un número determinado de
respuestas.
De intervalo: se obtiene la recompensa tras la primera respuesta que se produce una vez
transcurrido un intervalo de tiempo establecido, contado desde el último reforzador.
A su vez, la razón o el intervalo pueden ser
•
•
Fijos : con el mismo valor a lo largo de toda la adquisición
Variables: con distintos valores a lo largo de la sesión, que oscilan en torno a un promedio.
Así obtenemos los cuatro tipos de programas básicos: RF-n, IF-n, RV-n e IV-n, donde n es el
valor de la razón o del intervalo (o su promedio, si es un programa variable).
En la aplicación de un programa de reforzamiento a un organismo que no ha sido objeto de
aprendizaje previo, normalmente se comienza por un proceso de moldeado, luego se sigue con
refuerzo continuo y finalmente se va progresivamente aumentando las exigencias hasta llegar al
programa deseado.
3.3.1.1. Razón fija
Se administra una recompensa por cada n respuestas. En un programa RF-5, cada quinta
emisión de la R va seguida de reforzador.
Programa RF-5
Ultimo R+
recibido
Nuevo R+
Respuestas
5ª
respuesta
Tiempo
Este programa produce una tasa de respuesta típicamente alta y estable. Si la razón es alta, sin
embargo, esa estabilidad no es perfecta: el organismo se toma sistemáticamente pausas justo a
continuación de la administración del reforzador, llamadas pausas post-reforzamiento.
4
Condicionamiento
Tema 3
RF-90
RF-10
Respuestas
emitidas
acumuladas
Pausas
Tiempo -->
Registro acumulativo típico de una rata sometida a entrenamiento de recompensa mediante un
programa RF-10 (izda.) y un programa RF-90 (dcha). Los trazos gruesos y cortos indican los puntos en
que se administró recompensa
3.3.1.2. Razón variable
Los programas de razón variable son especialmente importantes, ya que (dentro de los simples)
son los que más se aproximan a las situaciones naturales.
Un programa RV especifica que el reforzador se administra tras un número de respuestas que
varía a cada vez. Así, por ejemplo, en un RV-5 la recompensa se puede administrar tras 7, 3,
11, 2, 3, 5... respuestas, de forma que el promedio total sea 5 respuestas a lo largo de la
sesión.
Los programas RV son los que generan la tasa de respuesta más alta (lo que se manifiesta en el
registro acumulativo por una gran pendiente) y constante (no aparecen pausas sistemáticas).
Respuestas
emitidas
acumuladas
RV-10
RV-90
Tiempo -->
Registro acumulativo típico de una rata sometida a entrenamiento de recompensa mediante un
programa RV-10 (izda.) y un programa RV-90 (dcha). Los trazos gruesos y cortos indican los puntos en
que se administró recompensa
5
Condicionamiento
Tema 3
3.3.1.3. Intervalo fijo
En los programas IF se administra el reforzador a la primera emisión de la respuesta una vez
transcurrido un intervalo desde la anterior emisión del reforzador, el cual intervalo tiene siempre
la misma duración (de ahí lo de “fijo”). Cada reforzador, por tanto, inicia un intervalo (siempre
igual) en el cual las Rs no son recompensadas.
Programa IF-10”
Ultimo R+
recibido
Nuevo R+
Rs no reforzadas
(dentro del
intervalo)
1ª R tras
el fin del
intervalo
Tiempo
Intervalo de 10”
El organismo aprende a anticipar cuándo aproximadamente va a estar disponible el siguiente
reforzador, y progresivamente disminuye su tasa de respuestas al principio del intervalo y la
aumenta hacia el final del mismo. Por ello, estos programas terminan por producir un
característico efecto de festoneado en el registro acumulativo :
IF-30sg.
Respuestas
emitidas
acumuladas
Pocas Rs en el
principio del
intervalo
Muchas Rs al
final del
intervalo
Tiempo
Registro acumulativo típico de una rata sometida a IF-30sg.
Los programas IF producen una tasa de respuesta global más baja que los de razón, y menos
estable debido a las variaciones dentro de cada intervalo.
6
Condicionamiento
3.3.1.4.
Tema 3
Intervalo variable
Los programas de intervalo variable son como los anteriores, sólo que el intervalo oscila en
torno a un valor promedio.
IV-30sg.
Respuestas
emitidas
acumuladas
Tiempo
Registro acumulativo típico de una rata sometida a IV-30sg.
Dan lugar a una tasa de respuesta moderada que, globalmente, es más o menos igual que la de
IF, pero mucho más estable. Al no ser predecible por el organismo la duración del intervalo, no
hay diferencias locales de tasa de respuesta (el organismo responde a un ritmo sostenido).
Por este motivo, es un programa idóneo para establecer Rs que se van a emplear como línea
base de ulteriores tratamientos o experimentos (en particular, se emplean muy a menudo para
establecer líneas base de conducta para ulteriores intervenciones).
En líneas generales, cabe formular las siguientes conclusiones sobre los cuatro programas
básicos:
1) Los programas de razón dan lugar a tasas de respuesta más altas (se responde rápido).
2) Los programas variables dan lugar a tasas de respuestas más estables (continuas,
ininterrumpidas).
3) En general, los resultados de la investigación con los distintos programas son muy
consistentes de unas especies a otras.
7
Descargar