Programas de reforzamiento y conducta de elección

Anuncio
Programas de reforzamiento y
conducta de elección
Domjan, Capítulo 6
Programas de reforzamiento
En la vida real, no siempre que damos una respuesta
aparecerá el reforzador.
El programa de reforzamiento determina cuándo la
ocurrencia de la respuesta va a ir seguida de un
reforzador.
n1, n2, n3...
1
Programas de reforzamiento
Programa de reforzamiento continuo: Cada
respuesta correcta es reforzada.
Ej: Interruptor de la luz, botón del mando a distancia…
R
Ref
R
Ref
R
Ref
Programas de reforzamiento
Programa de reforzamiento continuo: Cada
respuesta correcta es reforzada.
Programa de reforzamiento parcial o intermitente:
No todas las respuestas correctas son reforzadas.
Y estos pueden
ser de varios
tipos...
2
Programas de reforzamiento
Programas de RAZÓN:
El reforzador se otorga en función del número de
respuestas.
Razón Fija: El número de respuestas necesarias para
obtener un reforzador es siempre el mismo.
Ej: RF5 = Cada 5 respuestas, me dan un premio.
El programa de RF1 es un programa de reforzamiento
continuo.
Produce pausas post-reforzamiento.
Razón Variable: El número de respuestas necesarias para
obtener un reforzador va variando.
Ej: RV5 = Cada 5 respuestas de media, me dan un premio.
Programas de reforzamiento
Pausas
post-reforzamiento
RV10
Respuestas
RF10
Tiempo
Carrera de razón: el animal
mantiene una tasa de
respuesta alta y estable hasta
que lo refuerzan.
Tensión de la razón: Si la
razón aumenta mucho de
golpe, el animal puede dejar
de responder. Estaba
acostumbrado a responder X
por un reforzador, y cuando le
pedimos mucho más, desiste.
3
Programas de reforzamiento
Programas de INTERVALO:
El reforzador se otorga en función del tiempo que ha
transcurrido desde el último reforzador (Pero todavía hay
que responder al menos 1 vez para obtener el reforzador).
R
00:05
00:04
00:03
00:02
00:01
00:00
Reforzador
Programas de reforzamiento
Programas de INTERVALO:
El reforzador se otorga en función del tiempo que ha
transcurrido desde el último reforzador (Pero todavía hay
que responder al menos 1 vez para obtener el reforzador).
Intervalo Fijo: El tiempo que pasa entre dos reforzamientos
es siempre el mismo.
Ej: IF5 = Cada 5 segundos, el reforzador está disponible
(cada 5 segundos, si respondo me dan un premio).
Produce pausas post-reforzamiento y aceleración prereforzamiento (Patrón “festoneado”).
Intervalo Variable: El tiempo que pasa entre dos
reforzadores va variando.
Ej: IV5 = Cada 5 segundos de media, el reforzador está
disponible.
4
Programas de reforzamiento
Patrón “festoneado”
Aceleración de
la Respuesta
Respuestas
IF10
IV10
Pone a prueba
la capacidad
de “contar
el tiempo”.
Tiempo
Programas de reforzamiento
Pregunta:
Los exámenes de la universidad, ¿qué tipo de programa de
reforzamiento serían?
Solución:
Un programa de Intervalo Fijo. La conducta es la esperada
en este tipo de programas: se responde sólo al final del
intervalo, y de forma acelerada.
5
Programas de reforzamiento
Pregunta:
Las máquinas tragaperras ¿Qué programa de reforzamiento
utilizan?
Solución:
Un programa de Razón Variable. Por eso son tan adictivas,
producen una tasa de respuesta estable y persistente.
Programas de reforzamiento
Pregunta:
Un vendedor de frutos secos que saca un beneficio por
cada bolsa de pipas vendida. ¿Qué programa de
reforzamiento sería?
Solución:
Un programa de Razón Fija, de hecho es un programa de
reforzamiento continuo.
6
Programas de reforzamiento
RV
IF
IV
RF
Tiempo
Programas de reforzamiento
¿Cuál produce más respuesta?
Los programas que más respuestas producen son los de
razón (porque en los de intervalo el reforzador se obtiene
por esperar al momento idóneo, no por dar un número
determinado de respuestas).
7
Programas de reforzamiento
¿Cuál produce más respuesta?
Los programas fijos producen menos respuestas que los
variables porque son más predecibles. Además son más
fáciles de extinguir (tema 9).
De modo que el programa más efectivo para crear
respuesta es el de razón variable (ej: máquina
tragaperras, por eso son tan “adictivas” y peligrosas).
Programas de reforzamiento
Además de las respuestas independientes, también
podemos reforzar la tasa de respuesta (la velocidad a la
que se dan las respuestas).
Ejemplo: quiero que un animal dé, como mínimo, 12
respuestas por minuto.
Entonces, le doy el reforzador sólo si produce una
respuesta en los 5 segundos siguientes a la anterior
respuesta. Si responde cada 5 segundos o menos, tiene
una tasa de 12 respuestas por minuto, lo que yo quería.
Si tarda más de 5 segundos en responder, no es reforzado
aunque responda. Eso hará que se vuelva más rápido en el
futuro.
8
Programas concurrentes
Ahora queremos investigar la conducta de elección.
Si te dejan elegir, ¿qué prefieres hacer?
En los programas concurrentes se deja elegir al animal
entre dos programas de reforzamiento.
Programa A:
IV 60 seg.
¿?
Programa B:
RF 10.
A
B
Programas concurrentes
Programa A:
IV 60 seg.
¿?
Programa B:
RF 10.
A
B
Para saber qué programa prefiere seguir la paloma,
recurrimos a la tasa relativa de respuesta.
Tasa relativa de respuesta de la tecla A =
RA
RA+RB
Si la paloma no tiene ninguna preferencia en especial, la
tasa relativa se queda en 0,5.
9
Programas concurrentes
¿?
Programa A:
IV 60 seg.
Programa B:
RF 10.
A
B
Para saber qué programa administra más reforzadores a la
paloma, recurrimos a la tasa relativa de reforzamiento.
Tasa relativa de reforzamiento de la tecla A =
rA
rA+rB
Si la paloma recibe reforzadores con la misma frecuencia
en cada lado, la tasa relativa se queda en 0,5.
Programas concurrentes
Ley de la igualación (Herrnstein)
La tasa de respuesta = tasa de reforzamiento.
O sea, que la paloma responde más en el programa que
más reforzadores le proporciona.
Si te dejan escoger entre pasar una tarde en el cine o
paseando con un amigo, escogerás probablemente la
actividad más reforzante.
RA
RA+RB
rA
rA+rB
10
Programas concurrentes
Infraigualación, supraigualación y sesgo de respuesta
A veces la ley de la igualación no se cumple, y en esos casos se cumple
esta norma:
r
RA
= b( A )s
rB
RB
El parámetro s es la sensibilidad de la
conducta de elección a las tasas de
reforzamiento (“cuánto me afecta la tasa
de reforzamiento de este programa”).
Una buena comida es reforzante, pero si no
me gustan los pescados a lo mejor no
eligiría ese menú (sensibilidad).
El parámetro b es el sesgo (bias) de respuesta. Es una preferencia por
uno de los dos programas en particular, incluso aunque proporcione la
misma tasa de reforzamiento que el otro (por ejemplo, la respuesta en sí
puede ser más cómoda).
Ir al gimnasio podría ser más reforzante que ver la televisión (porque
produce un beneficio a largo plazo), pero como la respuesta es costosa,
puede que prefiramos quedarnos en casa (sesgo de respuesta).
Programas concurrentes
Infraigualación, supraigualación y sesgo de respuesta
r
RA
= b( rA )s
RB
B
Infraigualación: El animal tiene una tasa de respuesta menor que la
tasa de reforzamiento (recibe muchos reforzadores, pero no responde
mucho), es como si los reforzadores obtenidos no produjeran mucho
efecto en su elección. El parámetro sensibilidad (s) es < 1.
Supraigualación: El animal responde más de lo que le
correspondería en función de su tasa de reforzamiento La sensibilidad
es >1.
En realidad, en estas relaciones influyen tanto la cantidad como la
calidad del reforzador: si es un reforzador valioso, unos poquitos
bastan para que el animal prefiera ese programa a otro.
11
Programas concurrentes
En el “deporte” del zapping
tenemos un ejemplo de
programas concurrentes.
Programas concurrentes
RA
r
= b( A ) s
R A + RB
rA + rB
h
Abuelita A
Abuelita B
12
Programas concurrentes
RA
r
= b( A ) s
R A + RB
rA + rB
Abuelita A
Abuelita B
Programas concurrentes
La ley de la igualación también puede aplicarse a programas sencillos
de reforzamiento (no a la elección en programas concurrentes):
Realizar cualquier conducta supone una elección (elegimos realizar
esa conducta en vez de hacer cualquier otra cosa). Si una conducta no
me “refuerza” más que cualquier otra alternativa, si no es atractiva, es
poco probable que la realice.
13
Programas concurrentes
¿Qué determina los cambios de un programa a otro?
-Teorías de la maximización molecular: El animal hace un cambio de
programa para obtener un reforzador determinado.
-Teorías de la maximización molar: El animal hace los cambios
precisos para obtener el máximo de reforzadores a la larga.
-Teoría del mejoramiento: El animal cambia para obtener una tasa
local de reforzamiento mejor que la actual.
Tasa local de reforzamiento en el programa A: Número de
reforzadores obtenidos durante el tiempo que se ha dedicado al
programa A.
La alternancia de programas continúa hasta que las tasas
locales se igualan.
Programas concurrentes
Mecanismo del Mejoramiento
Programa
A: IV1min
Programa
B: IV3min
En una sesión de 30 min, entre los 2
programas hay un máximo de 40
reforzadores posibles (30+10).
Si la paloma se queda sólo en el
programa A, no obtiene más que 30
reforzadores.
1. La paloma empieza con el
programa A, porque ofrece la mayor
tasa de reforzamiento (30/30).
2. Prueba por azar a responder un
par de veces en la tecla B, y como
las respuestas están espaciadas
consigue reforzadores.
3. Eso eleva mucho la tasa local de
reforzamiento en B: le ha dedicado
poco tiempo y ha obtenido muchos
reforzadores. Por eso cambia a B.
4. El proceso se repite hasta que las
tasas locales de A y B se igualan. Ya
no hay un programa mejor que otro.
(Esto es la ley de la igualación).
14
Programas concurrentes
Elección con compromiso: Una vez tomada una decisión, no se
puede cambiar.
Programas concurrentes encadenados:
1
A
A
B
A
Eslabón de
elección
Programa de reforzamiento 1
Eslabón terminal
2
Programa de reforzamiento 2
Programas concurrentes
Programas concurrentes encadenados:
1
A
A
B
A
Si le damos a escoger así entre
un programa de RF y otro de RV,
la paloma se queda en el de RV,
incluso aunque tenga que dar
más respuestas.
2
En realidad lo que se refuerza es la respuesta en el eslabón inicial (A
vs B), y es un reforzamiento condicionado.
15
Autocontrol
Autocontrol:
Normalmente, es una decisión entre una recompensa importante
demorada o una más pequeña pero inmediata.
Hoy
Mañana
Autocontrol
Autocontrol:
Rachlin y Green (1972)
A
Recompensa
pequeña e
inmediata
B
Recompensa
grande y
demorada
Programa concurrente:
la paloma prefiere el
beneficio inmediato.
16
Autcontrol
Autocontrol:
Rachlin y Green (1972)
A
A
A
B
A
B
Recompensa
pequeña e
inmediata
Programa concurrente
encadenado: la paloma
“se controla”.
Ya puestos a esperar…
Recompensa
grande y
demorada
Autocontrol
Autocontrol:
El valor del reforzador se reduce cuanto más hay que esperar para
obtenerlo.
Función descontadora del valor:
V=M/(1+KD)
V = Valor del reforzador.
M = Magnitud de la recompensa.
D = Demora.
K = Tasa descontadora (cuánto se devalúa el reforzador por cada
unidad de tiempo que nos separa de él). Indica el grado de
“impulsividad”.
Ejemplo de los heroinómanos (pág. 186 del libro).
Entrenamiento del autocontrol: Usando demoras largas para el
reforzamiento.
17
Valor de la recompensa
Autocontrol
Recompensa
pequeña
inmediata
Recompensa
mayor
demorada
Tiempo
Si la demora es más larga,
entonces el valor de la
recompensa grande es mayor.
Si la demora es corta, entonces el
valor de la recompensa pequeña e
inmediata es mayor.
Y esto se acabó, ¡Muchas gracias!
Diapositivas de Fernando Blanco
http://www.labpsico.com/pers/blanco/FernandoBlanco.htm
18
Descargar