Programas de reforzamiento y conducta de elección Domjan, Capítulo 6 Programas de reforzamiento En la vida real, no siempre que damos una respuesta aparecerá el reforzador. El programa de reforzamiento determina cuándo la ocurrencia de la respuesta va a ir seguida de un reforzador. n1, n2, n3... 1 Programas de reforzamiento Programa de reforzamiento continuo: Cada respuesta correcta es reforzada. Ej: Interruptor de la luz, botón del mando a distancia… R Ref R Ref R Ref Programas de reforzamiento Programa de reforzamiento continuo: Cada respuesta correcta es reforzada. Programa de reforzamiento parcial o intermitente: No todas las respuestas correctas son reforzadas. Y estos pueden ser de varios tipos... 2 Programas de reforzamiento Programas de RAZÓN: El reforzador se otorga en función del número de respuestas. Razón Fija: El número de respuestas necesarias para obtener un reforzador es siempre el mismo. Ej: RF5 = Cada 5 respuestas, me dan un premio. El programa de RF1 es un programa de reforzamiento continuo. Produce pausas post-reforzamiento. Razón Variable: El número de respuestas necesarias para obtener un reforzador va variando. Ej: RV5 = Cada 5 respuestas de media, me dan un premio. Programas de reforzamiento Pausas post-reforzamiento RV10 Respuestas RF10 Tiempo Carrera de razón: el animal mantiene una tasa de respuesta alta y estable hasta que lo refuerzan. Tensión de la razón: Si la razón aumenta mucho de golpe, el animal puede dejar de responder. Estaba acostumbrado a responder X por un reforzador, y cuando le pedimos mucho más, desiste. 3 Programas de reforzamiento Programas de INTERVALO: El reforzador se otorga en función del tiempo que ha transcurrido desde el último reforzador (Pero todavía hay que responder al menos 1 vez para obtener el reforzador). R 00:05 00:04 00:03 00:02 00:01 00:00 Reforzador Programas de reforzamiento Programas de INTERVALO: El reforzador se otorga en función del tiempo que ha transcurrido desde el último reforzador (Pero todavía hay que responder al menos 1 vez para obtener el reforzador). Intervalo Fijo: El tiempo que pasa entre dos reforzamientos es siempre el mismo. Ej: IF5 = Cada 5 segundos, el reforzador está disponible (cada 5 segundos, si respondo me dan un premio). Produce pausas post-reforzamiento y aceleración prereforzamiento (Patrón “festoneado”). Intervalo Variable: El tiempo que pasa entre dos reforzadores va variando. Ej: IV5 = Cada 5 segundos de media, el reforzador está disponible. 4 Programas de reforzamiento Patrón “festoneado” Aceleración de la Respuesta Respuestas IF10 IV10 Pone a prueba la capacidad de “contar el tiempo”. Tiempo Programas de reforzamiento Pregunta: Los exámenes de la universidad, ¿qué tipo de programa de reforzamiento serían? Solución: Un programa de Intervalo Fijo. La conducta es la esperada en este tipo de programas: se responde sólo al final del intervalo, y de forma acelerada. 5 Programas de reforzamiento Pregunta: Las máquinas tragaperras ¿Qué programa de reforzamiento utilizan? Solución: Un programa de Razón Variable. Por eso son tan adictivas, producen una tasa de respuesta estable y persistente. Programas de reforzamiento Pregunta: Un vendedor de frutos secos que saca un beneficio por cada bolsa de pipas vendida. ¿Qué programa de reforzamiento sería? Solución: Un programa de Razón Fija, de hecho es un programa de reforzamiento continuo. 6 Programas de reforzamiento RV IF IV RF Tiempo Programas de reforzamiento ¿Cuál produce más respuesta? Los programas que más respuestas producen son los de razón (porque en los de intervalo el reforzador se obtiene por esperar al momento idóneo, no por dar un número determinado de respuestas). 7 Programas de reforzamiento ¿Cuál produce más respuesta? Los programas fijos producen menos respuestas que los variables porque son más predecibles. Además son más fáciles de extinguir (tema 9). De modo que el programa más efectivo para crear respuesta es el de razón variable (ej: máquina tragaperras, por eso son tan “adictivas” y peligrosas). Programas de reforzamiento Además de las respuestas independientes, también podemos reforzar la tasa de respuesta (la velocidad a la que se dan las respuestas). Ejemplo: quiero que un animal dé, como mínimo, 12 respuestas por minuto. Entonces, le doy el reforzador sólo si produce una respuesta en los 5 segundos siguientes a la anterior respuesta. Si responde cada 5 segundos o menos, tiene una tasa de 12 respuestas por minuto, lo que yo quería. Si tarda más de 5 segundos en responder, no es reforzado aunque responda. Eso hará que se vuelva más rápido en el futuro. 8 Programas concurrentes Ahora queremos investigar la conducta de elección. Si te dejan elegir, ¿qué prefieres hacer? En los programas concurrentes se deja elegir al animal entre dos programas de reforzamiento. Programa A: IV 60 seg. ¿? Programa B: RF 10. A B Programas concurrentes Programa A: IV 60 seg. ¿? Programa B: RF 10. A B Para saber qué programa prefiere seguir la paloma, recurrimos a la tasa relativa de respuesta. Tasa relativa de respuesta de la tecla A = RA RA+RB Si la paloma no tiene ninguna preferencia en especial, la tasa relativa se queda en 0,5. 9 Programas concurrentes ¿? Programa A: IV 60 seg. Programa B: RF 10. A B Para saber qué programa administra más reforzadores a la paloma, recurrimos a la tasa relativa de reforzamiento. Tasa relativa de reforzamiento de la tecla A = rA rA+rB Si la paloma recibe reforzadores con la misma frecuencia en cada lado, la tasa relativa se queda en 0,5. Programas concurrentes Ley de la igualación (Herrnstein) La tasa de respuesta = tasa de reforzamiento. O sea, que la paloma responde más en el programa que más reforzadores le proporciona. Si te dejan escoger entre pasar una tarde en el cine o paseando con un amigo, escogerás probablemente la actividad más reforzante. RA RA+RB rA rA+rB 10 Programas concurrentes Infraigualación, supraigualación y sesgo de respuesta A veces la ley de la igualación no se cumple, y en esos casos se cumple esta norma: r RA = b( A )s rB RB El parámetro s es la sensibilidad de la conducta de elección a las tasas de reforzamiento (“cuánto me afecta la tasa de reforzamiento de este programa”). Una buena comida es reforzante, pero si no me gustan los pescados a lo mejor no eligiría ese menú (sensibilidad). El parámetro b es el sesgo (bias) de respuesta. Es una preferencia por uno de los dos programas en particular, incluso aunque proporcione la misma tasa de reforzamiento que el otro (por ejemplo, la respuesta en sí puede ser más cómoda). Ir al gimnasio podría ser más reforzante que ver la televisión (porque produce un beneficio a largo plazo), pero como la respuesta es costosa, puede que prefiramos quedarnos en casa (sesgo de respuesta). Programas concurrentes Infraigualación, supraigualación y sesgo de respuesta r RA = b( rA )s RB B Infraigualación: El animal tiene una tasa de respuesta menor que la tasa de reforzamiento (recibe muchos reforzadores, pero no responde mucho), es como si los reforzadores obtenidos no produjeran mucho efecto en su elección. El parámetro sensibilidad (s) es < 1. Supraigualación: El animal responde más de lo que le correspondería en función de su tasa de reforzamiento La sensibilidad es >1. En realidad, en estas relaciones influyen tanto la cantidad como la calidad del reforzador: si es un reforzador valioso, unos poquitos bastan para que el animal prefiera ese programa a otro. 11 Programas concurrentes En el “deporte” del zapping tenemos un ejemplo de programas concurrentes. Programas concurrentes RA r = b( A ) s R A + RB rA + rB h Abuelita A Abuelita B 12 Programas concurrentes RA r = b( A ) s R A + RB rA + rB Abuelita A Abuelita B Programas concurrentes La ley de la igualación también puede aplicarse a programas sencillos de reforzamiento (no a la elección en programas concurrentes): Realizar cualquier conducta supone una elección (elegimos realizar esa conducta en vez de hacer cualquier otra cosa). Si una conducta no me “refuerza” más que cualquier otra alternativa, si no es atractiva, es poco probable que la realice. 13 Programas concurrentes ¿Qué determina los cambios de un programa a otro? -Teorías de la maximización molecular: El animal hace un cambio de programa para obtener un reforzador determinado. -Teorías de la maximización molar: El animal hace los cambios precisos para obtener el máximo de reforzadores a la larga. -Teoría del mejoramiento: El animal cambia para obtener una tasa local de reforzamiento mejor que la actual. Tasa local de reforzamiento en el programa A: Número de reforzadores obtenidos durante el tiempo que se ha dedicado al programa A. La alternancia de programas continúa hasta que las tasas locales se igualan. Programas concurrentes Mecanismo del Mejoramiento Programa A: IV1min Programa B: IV3min En una sesión de 30 min, entre los 2 programas hay un máximo de 40 reforzadores posibles (30+10). Si la paloma se queda sólo en el programa A, no obtiene más que 30 reforzadores. 1. La paloma empieza con el programa A, porque ofrece la mayor tasa de reforzamiento (30/30). 2. Prueba por azar a responder un par de veces en la tecla B, y como las respuestas están espaciadas consigue reforzadores. 3. Eso eleva mucho la tasa local de reforzamiento en B: le ha dedicado poco tiempo y ha obtenido muchos reforzadores. Por eso cambia a B. 4. El proceso se repite hasta que las tasas locales de A y B se igualan. Ya no hay un programa mejor que otro. (Esto es la ley de la igualación). 14 Programas concurrentes Elección con compromiso: Una vez tomada una decisión, no se puede cambiar. Programas concurrentes encadenados: 1 A A B A Eslabón de elección Programa de reforzamiento 1 Eslabón terminal 2 Programa de reforzamiento 2 Programas concurrentes Programas concurrentes encadenados: 1 A A B A Si le damos a escoger así entre un programa de RF y otro de RV, la paloma se queda en el de RV, incluso aunque tenga que dar más respuestas. 2 En realidad lo que se refuerza es la respuesta en el eslabón inicial (A vs B), y es un reforzamiento condicionado. 15 Autocontrol Autocontrol: Normalmente, es una decisión entre una recompensa importante demorada o una más pequeña pero inmediata. Hoy Mañana Autocontrol Autocontrol: Rachlin y Green (1972) A Recompensa pequeña e inmediata B Recompensa grande y demorada Programa concurrente: la paloma prefiere el beneficio inmediato. 16 Autcontrol Autocontrol: Rachlin y Green (1972) A A A B A B Recompensa pequeña e inmediata Programa concurrente encadenado: la paloma “se controla”. Ya puestos a esperar… Recompensa grande y demorada Autocontrol Autocontrol: El valor del reforzador se reduce cuanto más hay que esperar para obtenerlo. Función descontadora del valor: V=M/(1+KD) V = Valor del reforzador. M = Magnitud de la recompensa. D = Demora. K = Tasa descontadora (cuánto se devalúa el reforzador por cada unidad de tiempo que nos separa de él). Indica el grado de “impulsividad”. Ejemplo de los heroinómanos (pág. 186 del libro). Entrenamiento del autocontrol: Usando demoras largas para el reforzamiento. 17 Valor de la recompensa Autocontrol Recompensa pequeña inmediata Recompensa mayor demorada Tiempo Si la demora es más larga, entonces el valor de la recompensa grande es mayor. Si la demora es corta, entonces el valor de la recompensa pequeña e inmediata es mayor. Y esto se acabó, ¡Muchas gracias! Diapositivas de Fernando Blanco http://www.labpsico.com/pers/blanco/FernandoBlanco.htm 18