Skinner Son Necesarias Las Teorías Del Aprendizaje
Skinner Son Necesarias Las Teorías Del Aprendizaje
BF Skinner (1950)
Tres tipos de teoría en el campo del aprendizaje satisfacen esta definición. El más
característico se encuentra en el campo de la psicología fisiológica. Todos estamos
familiarizados con los cambios que se supone que tienen lugar en el sistema nervioso
cuando un organismo aprende. Las conexiones sinápticas se realizan o se rompen, los
campos eléctricos se alteran o se reorganizan, las concentraciones de iones se acumulan o
se difunden, y así sucesivamente.En la ciencia de la neurofisiología las declaraciones de
este tipo no son necesariamente teorías en el sentido actual. Pero en una ciencia del
comportamiento, en la que nos preocupa si un organismo secreta saliva cuando suena la
campana, o salta hacia un triángulo gris, o dice bik cuando una tarjeta lee a tuz , o ama a
alguien que se parece a su madre, todas las declaraciones sobre el sistema nervioso son
teorías en el sentido de que no están expresadas en los mismos términos y no pueden ser
confirmadas con los mismos métodos de observación que los hechos de los que se dice que
rinden cuentas.
Un segundo tipo de teoría del aprendizaje en la práctica no está lejos de lo fisiológico,
aunque hay menos acuerdo sobre el método de observación directa. Las teorías de este tipo
siempre han dominado el campo del comportamiento humano. Consisten en referencias a
eventos "mentales", como cuando se dice que un organismo aprende a comportarse de
cierta manera porque "encuentra algo agradable" o porque "espera que algo suceda". Para el
psicólogo mentalista estos eventos explicativos no son más teóricos que las conexiones
sinápticas con el neurofisiólogo, pero en una ciencia del comportamiento son teorías porque
los métodos [p. 194] y los términos apropiados para los eventos a explicar difieren de los
métodos y términos apropiados para los eventos explicativos.
No es el propósito de este trabajo mostrar que ninguna de estas teorías se puede poner en
buen orden científico, o que los eventos a los que se refieren pueden no ocurrir o ser
estudiados por las ciencias apropiadas. Sería imprudente negar los logros de teorías de este
tipo en la historia de la ciencia. La cuestión de si son necesarios, sin embargo, tiene otras
implicaciones y vale la pena preguntar. Si la respuesta es no, entonces puede ser posible
argumentar de manera efectiva contra la teoría en el campo del aprendizaje. Una ciencia del
comportamiento debe eventualmente lidiar con el comportamiento en su relación con
ciertas variables manipulables. Las teorías, ya sean neurológicas, mentales o conceptuales,
hablan de pasos intermedios en estas relaciones. Pero en lugar de incitarnos a buscar y
explorar variables relevantes, con frecuencia tienen un efecto bastante opuesto. Cuando
atribuimos el comportamiento a un evento neuronal o mental, real o conceptual, es probable
que olvidemos que todavía tenemos la tarea de dar cuenta del evento neural o
mental. Cuando afirmamos que un animal actúa de una manera determinada porque espera
recibir alimento, entonces lo que comenzó como la tarea de dar cuenta del comportamiento
aprendido se convierte en la tarea de dar cuenta de la expectativa. El problema es al menos
igualmente complejo y probablemente más difícil. Es probable que cerremos nuestros ojos
y usemos la teoría para darnos respuestas en lugar de las respuestas que podamos encontrar
a través de un estudio posterior. Se podría argumentar que la función principal de la teoría
del aprendizaje hasta la fecha ha sido, no sugerir investigaciones apropiadas, sino crear una
falsa sensación de seguridad, una satisfacción injustificada con el status quo .
Las alternativas son, al menos, vale la pena considerar. ¿Cuánto se puede hacer sin
teoría? ¿Qué otros tipos de actividad científica son posibles? ¿Y qué luz arrojan las
prácticas alternativas sobre nuestra preocupación actual por la teoría?
Sería inconsistente tratar de responder estas preguntas a un nivel teórico. Por lo tanto,
volvamos a algunos materiales experimentales en tres áreas en las que las teorías del
aprendizaje ahora florecen y plantea la cuestión de la función de la teoría de una manera
más concreta. [ 2 ]
Lo que realmente sucede cuando un organismo aprende no es una pregunta fácil. Aquellos
que estén interesados en una ciencia del comportamiento insistirán en que el aprendizaje es
un cambio en el comportamiento, pero tienden a evitar referencias explícitas a las
respuestas o actos como tales. "Aprender es el ajuste o la adaptación a una situación". Pero,
¿de qué cosas se hacen ajustes y adaptaciones? ¿Son datos o inferencias de datos? "El
aprendizaje es una mejora". Pero mejora en qué? ¿Y desde qué punto de vista? "Aprender
es restaurar el equilibrio". ¿Pero qué está en equilibrio y cómo se pone allí? "El aprendizaje
es la resolución de problemas". Pero, ¿cuáles son las dimensiones físicas de un problema, o
de una solución? Las definiciones de este tipo muestran una falta de voluntad de tomar lo
que aparece ante los ojos en un experimento de aprendizaje como un dato básico. Las
observaciones particulares parecen demasiado triviales. Un puntaje de error cae; pero no
estamos preparados para decir que esto es aprender más que simplemente el resultado del
aprendizaje. Un organismo cumple un criterio de diez ensayos exitosos; pero un criterio
arbitrario está en desacuerdo con nuestra concepción de la generalidad del proceso de
aprendizaje.
Aquí es donde interviene la teoría. Si no es el tiempo requerido para salir de una caja de
rompecabezas que cambia en el aprendizaje, sino más bien la fuerza de un vínculo, o la
conductividad de una vía neural, o el potencial excitador de un hábito, entonces los
problemas parecen desaparecer. Salir de una caja cada vez más rápido no está
aprendiendo; es meramente rendimiento. El aprendizaje continúa en otro lugar, en un
sistema dimensional diferente.Y aunque el tiempo requerido depende de condiciones
arbitrarias, a menudo varía de manera discontinua y está sujeto a reversiones de magnitud,
estamos seguros de que el proceso de aprendizaje en sí es continuo, ordenado y más allá de
los accidentes de medición. Nada podría ilustrar mejor el uso de la teoría como refugio de
los datos.
Recientemente se ha prestado más atención a la latencia, cuya relevancia, al igual que la del
nivel de energía, es sugerida por las propiedades de los reflejos condicionados y no
condicionados. Pero en el comportamiento operante, la relación con un estímulo es
diferente. Una medida de latencia implica otras consideraciones, como lo mostrará la
inspección de cualquier caso. La mayoría de las respuestas operantes pueden emitirse en
ausencia de lo que se considera un estímulo relevante. En tal caso, es probable que la
respuesta aparezca antes de que se presente el estímulo. No es una solución escapar de esta
vergüenza al bloquear una palanca para que un organismo no pueda presionarla hasta que
se presente el estímulo, ya que apenas podemos contentarnos con las relaciones temporales
que han sido forzadas a cumplir con nuestras expectativas. Las latencias de pista están
sujetas a esta objeción. En un experimento típico, se abre la puerta de una caja de inicio y
se mide el tiempo que transcurre antes de que una rata abandone la caja. Abrir la puerta no
es solo un estímulo, es un cambio en la situación que hace que la respuesta sea posible por
primera vez. El tiempo medido no es tan simple como una latencia y requiere otra
formulación. Mucho depende de lo que la rata esté haciendo en el momento en que se
presente el estímulo. Algunos experimentadores esperan hasta que la rata está frente a la
puerta, pero hacerlo es alterar la medición que se está tomando. Si, por otro lado, se abre la
puerta sin hacer referencia a lo que está haciendo la rata, el primer efecto importante es el
condicionamiento del comportamiento de espera favorable. La rata finalmente se queda
cerca y de cara a la puerta. El tiempo de inicio más corto resultante no se debe a una
reducción en la latencia de una respuesta, sino al condicionamiento del comportamiento
preliminar favorable.
La tasa de respuesta parece ser el único dato que varía significativamente y en la dirección
esperada bajo condiciones que son relevantes para el "proceso de aprendizaje". Podemos,
por lo tanto, tener la tentación de aceptarlo como nuestra medida largamente buscada de
fuerza de enlace, potencial de excitación, etc. Una vez en posesión de un dato efectivo, sin
embargo, podemos sentir poca necesidad de cualquier construcción teórica de este tipo. . El
progreso en un campo científico generalmente espera al descubrimiento de una variable
dependiente satisfactoria. Hasta que se haya descubierto una variable de este tipo,
recurrimos a la teoría. Las entidades que han figurado tan prominentemente en la teoría del
aprendizaje han servido principalmente como sustitutos de un dato directamente observable
y productivo. Tienen pocas razones para sobrevivir cuando se ha encontrado ese dato.
No es accidental que la tasa de respuesta tenga éxito como dato, porque es particularmente
apropiada para la tarea fundamental de una ciencia del comportamiento. Si queremos
predecir el comportamiento (y posiblemente controlarlo), debemos tratar con
la probabilidad de respuesta . El negocio de una ciencia del comportamiento es evaluar
esta probabilidad y explorar las condiciones que la determinan. La fuerza del vínculo, la
expectativa, el potencial excitatorio, etc., llevan la noción de probabilidad en una forma
fácil de imaginar, pero las propiedades adicionales sugeridas por estos términos han
obstaculizado la búsqueda de medidas adecuadas. La tasa de respuesta no es una "medida"
de la probabilidad, pero es el único dato apropiado en una formulación en estos términos.
Como otras disciplinas científicas pueden atestiguar, las probabilidades no son fáciles de
manejar. Queremos hacer declaraciones sobre la probabilidad de que se produzca una sola
respuesta futura, pero nuestros datos se expresan en forma de frecuencias de respuestas que
ya se han producido. Estas respuestas fueron presumiblemente similares entre sí y a la
respuesta que se predijo. Pero esto plantea el problemático problema de respuesta-
instancia vs. clase de respuesta. Precisamente, ¿qué respuestas debemos tener en cuenta al
predecir una instancia futura? Ciertamente, no las respuestas hechas por una población de
diferentes organismos, dado que tal dato estadístico plantea más problemas de los que
resuelve. Considerar la frecuencia de respuestas repetidas en un individuo exige algo como
la situación experimental que acabamos de describir.
Varias objeciones se han hecho al uso de la tasa de respuesta como un dato básico. Por
ejemplo, un programa como este puede impedirnos tratar con muchos eventos que son
eventos únicos en la vida del individuo. Un hombre no decide una carrera, se casa, gana un
millón de dólares o muere en un accidente con la frecuencia suficiente como para que la
tasa de respuesta sea significativa. Pero estas actividades no son respuestas. No son simples
eventos unitarios que se prestan a la predicción como tal. Si vamos a predecir el
matrimonio, el éxito, los accidentes, etc., en algo más que términos estadísticos, debemos
tratar con las unidades de comportamiento más pequeñas que conducen y componen estos
episodios unitarios. Si las unidades aparecen en forma repetible, se puede aplicar el
presente análisis. En el campo del aprendizaje, una objeción similar toma la forma de
preguntar cómo el presente análisis puede extenderse a situaciones experimentales en las
que es imposible observar frecuencias. No se sigue que el aprendizaje no tenga lugar en
tales situaciones. La noción de probabilidad generalmente se extrapola a los casos en que
no se puede llevar a cabo un análisis de frecuencia. En el campo del comportamiento,
organizamos una situación en la cual las frecuencias están disponibles como datos, pero
usamos la noción de probabilidad para analizar y formular instancias o incluso tipos de
comportamiento que no son susceptibles de este análisis.
Otra objeción común es que una tasa de respuesta es solo un conjunto de latencias y, por lo
tanto, no es un dato nuevo en absoluto. Esto se muestra fácilmente como
incorrecto. Cuando medimos el tiempo transcurrido entre dos respuestas, no tenemos dudas
sobre qué estaba haciendo el organismo cuando iniciamos nuestro reloj. Sabemos que solo
estaba ejecutando una respuesta. Este es un cero natural, bastante diferente del punto
arbitrario desde el que se miden las latencias. La repetición libre de una respuesta produce
un dato rítmico o periódico muy diferente de la latencia. Muchos procesos físicos
periódicos sugieren paralelismos.
Pero cuando tratamos de decir por qué el refuerzo tiene este efecto, surgen teorías. Se dice
que el aprendizaje tiene lugar porque el refuerzo es agradable, satisfactorio, reduce la
tensión, y así sucesivamente. El proceso inverso de extinción se explica con teorías
comparables. Si la tasa de respuesta se eleva por primera vez a un punto alto mediante el
refuerzo y el refuerzo retenido, se observa que la respuesta se produce cada vez con menos
frecuencia. Una teoría común explica esto al afirmar que se construye un estado que
suprime el comportamiento. Esta "inhibición experimental" o "inhibición de reacción" debe
asignarse a un sistema dimensional diferente, ya que nada en el nivel de comportamiento
corresponde a procesos opuestos de excitación e inhibición. La tasa de respuesta
simplemente aumenta en una operación y disminuye en otra. Ciertos efectos comúnmente
interpretados como que muestran la liberación de una fuerza de supresión se pueden
interpretar de otras maneras. La desinhibición, por ejemplo, no es necesariamente el
descubrimiento de la fuerza reprimida; puede ser un signo de fortaleza suplementaria de
una variable extraña. El proceso de recuperación espontánea, a menudo citado para apoyar
la noción de supresión, tiene una explicación alternativa, que se observará en un momento.
El simple paso del tiempo entre el condicionamiento y la extinción es una variable que
tiene sorprendentemente poco efecto. La rata es demasiado efímera para hacer factible un
experimento prolongado, pero la paloma, que puede vivir diez o quince años, es un sujeto
ideal. Hace más de cinco años, veinte palomas fueron condicionadas para golpear una gran
clave translúcida sobre la cual se proyectaba un complejo patrón visual. El refuerzo
dependía del mantenimiento de una tasa alta y constante de respuesta y al golpear una
característica particular del patrón visual. Estas aves fueron apartadas para estudiar la
retención. Fueron transferidos a la vida habitual [P. 201] trimestres, donde sirvieron como
criadores. Los grupos pequeños fueron probados para la extinción al final de los seis meses,
un año, dos años y cuatro años. Antes de la prueba cada ave fue transferida a una jaula viva
separada. Se usó un programa de alimentación controlada para reducir el peso a
aproximadamente el 80 por ciento del peso libre . El pájaro fue alimentado en el aparato
experimental débilmente iluminado en ausencia de la llave durante varios días, durante los
cuales las respuestas emocionales al aparato desaparecieron. El día de la prueba, el pájaro
fue colocado en la caja oscurecida. La clave translúcida estaba presente pero no
iluminada. No se hicieron respuestas. Cuando el patrón se proyectó sobre la llave, las
cuatro aves respondieron de manera rápida y exhaustiva. La Fig. 2 muestra la curva más
grande obtenida. Este pájaro pulsó la tecla dentro de los dos segundos posteriores a la
presentación de un patrón visual que no había visto durante cuatro años, y en el lugar
preciso sobre el cual se había basado anteriormente el refuerzo diferencial. Continuó
respondiendo durante la siguiente hora, emitiendo alrededor de 700 respuestas.Esto es del
orden de la mitad a una cuarta parte de las respuestas que habría emitido si la extinción no
se hubiera retrasado cuatro años, pero de lo contrario, la curva es bastante típica.
El nivel de motivación es otra variable a tener en cuenta. Un ejemplo del efecto del hambre
ha sido reportado en otra parte ( 3 ). La respuesta de presionar una palanca se estableció en
ocho ratas con un programa de refuerzo periódico. Se alimentaron con la parte principal de
su ración en días alternos, por lo que las tasas de respuesta en días sucesivos fueron
alternadamente altas y bajas. Dos subgrupos de cuatro ratas fueron emparejados en función
de la tasa mantenida bajo refuerzo periódico bajo estas condiciones. La respuesta se
extinguió, en un grupo en días alternos cuando el hambre era alta, en el otro grupo en días
alternos cuando el hambre era baja. (Se consumió la misma cantidad de alimento en los días
no experimentales que antes). El resultado se muestra en la Fig. 3. El gráfico superior
proporciona los datos brutos. Los niveles de hambre están indicados por los puntos en P en
la abscisa, las tasas que prevalecen bajo refuerzo periódico. Los puntos siguientes muestran
el declive en la extinción. Si multiplicamos la curva inferior por un factor elegido para
superponer los puntos en P, las curvas se superponen razonablemente de cerca, como se
muestra en el gráfico inferior. Varios otros experimentos en ratas y palomas han
confirmado este principio general. Si una proporción dada de respuesta prevalece bajo
refuerzo periódico, las pendientes de curvas de extinción posteriores muestran la misma
proporción. El nivel de hambre determina la pendiente de la curva de extinción pero no su
curvatura.
[pag. 202] Otra variable,
la dificultad de respuesta,
es especialmente
relevante porque se ha
utilizado para probar la
teoría de la inhibición de
la reacción ( 1 ), en el
supuesto de que una
respuesta que requiere
una energía considerable
acumulará más
inhibición de reacción
que una respuesta fácil y
plomo. por lo tanto, para
una extinción más
rápida. La teoría requiere
que se modifique la
curvatura de la curva de
extinción, no
simplemente su
pendiente. Sin embargo,
hay evidencia de que la
dificultad de respuesta
actúa como el nivel de
hambre simplemente
para alterar la
pendiente. Algunos datos
han sido reportados pero
no publicados ( 5 ). Una
paloma está suspendida
en una chaqueta que
limita sus alas y patas,
pero deja la cabeza y el
cuello libres para
responder a una llave y
un cargador de
alimentos. Su
comportamiento en esta
situación es
cuantitativamente muy
parecido al de un pájaro
moviéndose libremente
en una caja
experimental. Pero el uso
de la chaqueta tiene la
ventaja de que la
respuesta a la llave puede
ser fácil o difícil al cambiar la distancia que debe alcanzar el ave. En un experimento, estas
distancias se expresaron en siete unidades iguales pero arbitrarias. A la distancia 7 el pájaro
apenas podía alcanzar la llave, a los 3 podría golpear sin extender apreciablemente su
cuello. El refuerzo periódico proporcionó una línea de base recta sobre la cual fue posible
observar el efecto de la dificultad cambiando rápidamente de posición durante el período
experimental. Cada uno de los cinco registros en la Fig. 4 cubre un período experimental de
quince minutos bajo refuerzo periódico. Las distancias del pájaro de la llave se indican con
números encima de los registros. Se observará que la tasa de respuesta a la distancia 7 es
generalmente bastante baja, mientras que la de la distancia 3 es alta. Las distancias
intermedias producen pendientes intermedias. También se debe notar que el cambio de una
posición a otra se siente inmediatamente. Si las respuestas repetidas en una posición difícil
fueron construir una cantidad considerable de inhibición de la reacción, deberíamos esperar
que la tasa sea baja durante un tiempo breve después de regresar a una respuesta fácil. Por
el contrario, si una respuesta fácil fue generar poca inhibición de reacción, deberíamos
esperar una tasa bastante alta de respuesta durante algún tiempo después de asumir una
posición difícil. Nada como esto ocurre. La "extinción más rápida" de una respuesta difícil
es una expresión ambigua. La constante de pendiente se ve afectada y con ella el número de
respuestas en extinción a un criterio, pero puede no haber efecto sobre la curvatura.
Una forma de considerar la pregunta de por qué las curvas de extinción son curvas es
considerar la extinción como un proceso de ex- [p. 203] haustion comparable a la pérdida
de calor de la fuente al sumidero o la caída del nivel de un depósito cuando se abre una
salida. El acondicionamiento desarrolla una predisposición a responder, una "reserva", que
la extinción agota. Esta es quizás una descripción defendible en el nivel de
comportamiento. La reserva no es necesariamente una teoría en el sentido presente, ya que
no está asignada a un sistema dimensional diferente. Podría definirse operativamente como
una curva de extinción pronosticada, aunque, lingüísticamente, haga una declaración sobre
la condición momentánea de una respuesta. Pero no es un concepto particularmente útil, ni
la opinión de que la extinción es un proceso de agotamiento añade mucho al hecho
observado de que las curvas de extinción se curvan de cierta manera.
Sin embargo, hay dos
variables que afectan la
velocidad, que operan
durante la extinción para
alterar la curvatura. Uno de
estos cae dentro del campo
de la emoción. Cuando no
reforzamos una respuesta
que se ha reforzado
previamente, no solo
iniciamos un proceso de
extinción, sino que también
establecemos una respuesta
emocional, tal vez lo que a
menudo significa
frustración. La paloma coos
en una [p. 204] patrón
identificable, se mueve
rápidamente alrededor de la
jaula, defeca o mueve sus
alas rápidamente en una
posición de cuclillas que
sugiere el comportamiento
de pisada
(apareamiento). Esto compite
con la respuesta de golpear
una tecla y es tal vez suficiente para explicar la disminución en la tasa de extinción
temprana. También es posible que la probabilidad de una respuesta basada en la privación
de alimentos se reduzca directamente como parte de dicha reacción emocional. Cualquiera
que sea su naturaleza, el efecto de esta variable se elimina mediante la adaptación. Las
curvas de extinción repetidas se suavizan, y en algunos de los programas que se describirán
en breve hay poca o ninguna evidencia de una modificación emocional de la frecuencia.
Una segunda variable tiene un efecto mucho más serio. La máxima respuesta durante la
extinción se obtiene solo cuando las condiciones bajo las cuales se reforzó la respuesta se
reproducen con precisión. Una rata condicionada en presencia de una luz no se extinguirá
completamente en ausencia de la luz. Comenzará a responder más rápidamente cuando se
vuelva a introducir la luz. Esto es cierto para otros tipos de estímulos, como lo ilustra el
siguiente experimento en el aula. Nueve palomas fueron acondicionadas para golpear un
triángulo amarillo bajo refuerzo intermitente. En la sesión representada por la Fig. 5, las
aves se reforzaron primero en este programa durante 30 minutos. La curva acumulada
combinada es esencialmente una línea recta, que muestra más de 1100 respuestas por ave
durante este período. Un triángulo rojo fue sustituido por el amarillo y no se reforzaron las
respuestas a partir de entonces. El efecto fue una caída pronunciada en la respuesta, con
solo una ligera recuperación durante los siguientes quince minutos. Cuando se reemplazó el
triángulo amarillo, la respuesta rápida comenzó inmediatamente y siguió la curva de
extinción habitual. Experimentos similares han demostrado que el tono de un tono
incidental, la forma de un patrón que se golpea, o el tamaño de un patrón, si está presente
durante el acondicionamiento, controlará en cierta medida la tasa de respuesta durante la
extinción. Algunas propiedades son más efectivas que otras, y es posible una evaluación
cuantitativa.Cambiando a varios valores de un estímulo en orden aleatorio repetidamente
durante el proceso de extinción, el gradiente para la generalización del estímulo se puede
leer directamente en las tasas de respuesta debajo de cada valor.
Algo muy parecido a esto debe continuar durante la extinción. Supongamos que todas las
respuestas a una clave se han reforzado y que a cada una le ha seguido un breve período de
alimentación. Cuando extinguimos el comportamiento, creamos una situación en la que las
respuestas no se refuerzan, en las que no se come, y en las que probablemente haya nuevas
respuestas emocionales. La situación podría ser tan novedosa como un triángulo rojo
después de un amarillo. Si es así, podría explicar la disminución en la tasa durante la
extinción. Podríamos haber obtenido un [p. 205] curva suave, con forma de curva de
extinción , entre las líneas verticales en la Fig. 5 cambiando gradualmente el color del
triángulo de amarillo a rojo. Esto podría haber sucedido aunque no se estaba produciendo
ningún otro tipo de extinción. Las mismas condiciones de extinción parecen presuponer una
creciente novedad en la situación experimental. ¿Es por eso que la curva de extinción es
curva?
Otra evidencia del efecto de la novedad proviene del estudio del refuerzo periódico. El
hecho de que el refuerzo intermitente produzca curvas de extinción más grandes que el
refuerzo continuo es una dificultad problemática para quienes esperan una relación simple
entre el número de refuerzos y el número de respuestas en extinción. Pero esta relación es
realmente bastante compleja. Un resultado del refuerzo periódico es que los cambios
emocionales se adaptan. Esto puede ser responsable de la suavidad de las curvas de
extinción posteriores, pero probablemente no de su mayor extensión. Esto último puede
atribuirse a la falta de novedad en la situación de extinción. Bajo refuerzo periódico muchas
respuestas se hacen sin refuerzo y cuando no se ha comido recientemente. La situación en
extinción no es totalmente nueva.
El refuerzo
periódico no
es, sin
embargo, una
solución
simple. Si
reforzamos
[p. 206] El
refuerzo
periódico no
es, sin
embargo, una
solución
simple. Si
reforzamos en un horario regular, digamos, cada minuto, el organismo pronto forma una
discriminación. Poca o ninguna respuesta ocurre justo después del refuerzo, ya que la
estimulación de comer se correlaciona con la ausencia de refuerzo posterior. La rapidez con
que se puede desarrollar la discriminación se muestra en la Fig. 6, que reproduce las
primeras cinco curvas obtenidas de una paloma con refuerzo periódico en períodos
experimentales de quince minutos cada una. En el quinto período (o después de
aproximadamente una hora de refuerzo periódico), la discriminación produce una pausa
después de cada refuerzo, lo que resulta en una curva marcadamente gradual. Como
resultado de esta discriminación, el pájaro casi siempre responde rápidamente cuando se lo
refuerza. Esta es la base de otra discriminación. La respuesta rápida se convierte en una
condición estimulante favorable. Un buen ejemplo del efecto sobre la curva de extinción
posterior se muestra en la Fig. 7. Esta paloma había sido reforzada una vez por minuto
durante períodos experimentales diarios de quince minutos cada uno durante varias
semanas. En la curva de extinción que se muestra, el ave comienza a responder a la
velocidad prevaleciente según el cronograma anterior. Una aceleración positiva rápida al
inicio se pierde en la reducción del registro. La paloma rápidamente alcanza y mantiene una
tasa que es más alta que la tasa global durante el refuerzo periódico. Durante este período,
la paloma crea una condición estimulante previamente correlacionada de manera óptima
con el refuerzo. Eventualmente, cuando algún tipo de agotamiento interviene, la tasa cae
rápidamente a un valor mucho más bajo pero bastante estable y luego prácticamente a
cero. Entonces prevalece una condición bajo la cual una respuesta normalmente no se
refuerza. Por lo tanto, es improbable que el ave comience a responder de nuevo. Sin
embargo, cuando responde, la situación mejora ligeramente y, si continúa respondiendo, las
condiciones se vuelven rápidamente similares a aquellas bajo las cuales se recibió el
refuerzo. Bajo esta "autocatálisis", se alcanza rápidamente una tasa alta y se emiten más de
500 respuestas en una segunda ráfaga. La tasa luego disminuye rápidamente y bastante
suavemente, nuevamente a casi cero. Esta curva no es en modo alguno desordenada. La
mayor parte de la curvatura es suave. Pero el estallido de respuesta a los cuarenta y cinco
minutos muestra una fuerza residual considerable que, si la extinción fuera meramente
agotamiento, debería haber aparecido antes en la curva. La curva puede explicarse
razonablemente suponiendo que [p. 207] el pájaro está controlado en gran parte por la
correlación espuria precedente entre el refuerzo y la respuesta rápida.
Esta suposición puede verificarse mediante la construcción de un cronograma de
reforzamiento en el que es imposible una contingencia diferencial entre la tasa de respuesta
y el refuerzo. En uno de esos esquemas de lo que se puede llamar "refuerzo aperiódico", un
intervalo entre respuestas reforzadas sucesivas es tan breve que no intervienen respuestas
no reforzadas, mientras que el intervalo más largo es de aproximadamente dos
minutos. Otros intervalos se distribuyen aritméticamente entre estos valores, el promedio
restante de un minuto. Los intervalos son aproximadamente aleatorios para componer un
programa de refuerzo. Bajo este programa, la probabilidad de refuerzo no cambia con
respecto a los refuerzos previos, y las curvas nunca adquieren el carácter gradual de la
curva E en la Fig. 6. (La Figura 9 muestra las curvas de un programa similar). Como
resultado, no hay correlación entre se pueden desarrollar diferentes tasas de respuesta y
diferentes probabilidades de refuerzo.
En la Fig. 8 se muestra una curva de extinción después de una breve exposición a refuerzos
aperiódicos. Comienza característicamente a la velocidad predominante bajo refuerzo
aperiódico y, a diferencia de la curva que sigue al refuerzo periódico periódico, no se
acelera a una velocidad global más alta. No hay evidencia de la producción "autocatalítica"
de una condición estimulante óptima. También característicamente, no hay
discontinuidades significativas o cambios repentinos en la tasa en cualquier dirección. La
curva se extiende a lo largo de un período de ocho horas, frente a no exactamente dos horas
en la figura 7, y parece representar un único proceso ordenado. El número total de
respuestas es mayor, tal vez debido al mayor tiempo permitido para la emisión. Todo esto
puede explicarse por el simple hecho de que hemos hecho imposible que la paloma forme
un par de discriminaciones basadas, primero, en la estimulación por comer y, segundo, en
el estímulo de una respuesta rápida.
Dado que el intervalo más largo entre el refuerzo fue de solo dos minutos, una cierta
novedad aún debe haberse introducido con el paso del tiempo. Si esto explica la curvatura
en la figura 8 puede probarse hasta cierto punto con otros programas de refuerzo que
contienen intervalos mucho más largos. Se construyó una progresión geométrica
comenzando con 10 segundos como el intervalo más corto y multiplicándose repetidamente
a través de una relación de 1.54. Esto produjo un conjunto de intervalos de un promedio de
5 minutos, el más largo de los cuales fue más de 21 minutos. Tal conjunto fue aleatorizado
en un programa [p. 208] de refuerzo repetido cada hora.
Al cambiar a este programa de la serie aritmética, las tasas declinaron primero durante los
intervalos más largos, pero las palomas pronto pudieron mantener una tasa constante de
respuesta debajo de ella. Dos registros en la forma en que se registraron se muestran en la
figura 9. (El lápiz se restablece a cero después de cada mil respuestas. Para obtener una sola
curva acumulativa, sería necesario cortar el registro y unir las secciones para producir una
línea continua. La forma cruda se puede reproducir con
menos reducción.) Cada armadura está representada por un tablero horizontal. El tiempo
cubierto es de aproximadamente 3 horas. Los registros se muestran para dos palomas que
mantuvieron diferentes tasas generales bajo este programa de refuerzo.
Bajo tal programa, se mantiene una tasa constante de respuesta durante al menos 21
minutos sin refuerzo, después de lo cual se recibe un refuerzo. Por lo tanto, se debería
desarrollar menos novedad durante la extinción posterior. En la Curva 1 de la Fig. 10, la
paloma había estado expuesta a varias sesiones de varias horas cada una con este conjunto
geométrico de intervalos. El número de respuestas emitidas en extinción es
aproximadamente el doble que la curva de la figura 8 después del conjunto aritmético de
intervalos que promedia un minuto, pero el
las curvas son muy parecidas. La exposición adicional a la programación geométrica genera
ejecuciones más largas durante las cuales la velocidad no cambia significativamente. La
Curva 2 siguió a la Curva 1 después de dos horas y media de refuerzo aperiódico
adicional. En el día que se muestra en la curva 2, primero se dieron algunos refuerzos
aperiódicos, como se marcó al comienzo de la curva. Cuando se interrumpió el refuerzo,
prevaleció una tasa de respuesta bastante constante para varios miles de
respuestas. Después de otra sesión experimental de dos horas y media con la serie
geométrica, se grabó la curva 3. Esta sesión también comenzó con una serie corta de
refuerzos aperiódicos, seguidos de una ejecución sostenida de más de 6000 respuestas no
reforzadas con pocos cambios en la tasa (A). No parece haber ninguna razón por la cual
otras series que promedian quizás más de cinco minutos por intervalo y que contienen
intervalos excepcionales mucho más largos no lleven esa línea recta mucho más allá.
Aprendizaje complejo
La velocidad con la que el pájaro cambia de una llave a otra depende de la distancia entre
las llaves. Esta distancia es una medida aproximada de la diferencia de estímulo entre las
dos teclas. También determina el alcance de la respuesta de cambio, con una diferencia
implícita en retroalimentación sensorial. También modifica la extensión del refuerzo a las
respuestas supuestamente no reforzadas, ya que si las teclas están muy juntas, una respuesta
reforzada en un lado puede ocurrir más pronto después de un precedente
respuesta en el otro lado. En la Fig. 11, las dos teclas estaban a una pulgada de
distancia. Por lo tanto, eran bastante similares con respecto a la posición en la caja
experimental. Cambiar de uno a otro implicaba un mínimo de retroalimentación sensorial, y
el refuerzo de una respuesta a una tecla podría seguir muy poco después de una respuesta a
la otra. Cuando las teclas están separadas por hasta cuatro pulgadas, el cambio en la fuerza
es mucho más rápido. La figura 12 muestra dos curvas registradas simultáneamente de una
sola paloma durante un período experimental de aproximadamente 40 minutos. Una alta
tasa [p. 213] a la tecla derecha y una tasa baja a la
izquierda había sido establecida previamente. En la figura, no se reforzaron las respuestas a
la derecha, pero las de la izquierda fueron
cada minuto, como lo indican los guiones verticales por encima de la curva L. La pendiente
de R disminuye de manera bastante suave, mientras que la de L aumenta, también bastante
suavemente, hasta un valor comparable al valor inicial de R. El ave se ha conformado al
cambio de contingencia dentro de un único período experimental. La tasa media de
respuesta se muestra mediante una línea punteada, que nuevamente muestra una curvatura
no significativa.
Lo que se
llama
"preferencia"
entra en esta
formulación. En cualquier etapa del proceso que se muestra en la figura 12, la preferencia
se puede expresar en términos de las tasas relativas de respuesta a las dos claves. Sin
embargo, esta preferencia no consiste en pulsar una tecla sino en cambiar de una clave a
otra. La probabilidad de que el ave golpee una tecla independientemente de sus propiedades
de identificación se comporta independientemente de la respuesta preferencial de cambio
de una clave a otra. Varios experimentos han revelado un hecho adicional. Una preferencia
permanece fija si se retiene el refuerzo. La Fig. 13 es un ejemplo. Muestra curvas de
extinción simultáneas de dos claves durante siete períodos experimentales diarios de una
hora cada uno. Antes de la extinción, la fuerza relativa de las respuestas de cambio a R y
cambio a L arrojó una "preferencia" de aproximadamente 3 a 1 para R. La constancia de la
velocidad a lo largo del proceso de extinción se ha mostrado en la figura al multiplicar L
por una constante adecuada e ingresar los puntos como pequeños círculos en R. Si la
extinción altera la preferencia, las dos curvas no podrían superponerse de esta manera.
Sin embargo, es posible lograr que una paloma coincida con la muestra al reforzar las
respuestas discriminatorias de rojo-llamativo-después-de-ser-estimulado-por-rojo y verde-
llamativo-después-de-ser-estimulado-por-verde mientras se extinguen los otros dos
posibilidades. La dificultad está en organizar la estimulación adecuada en el momento de la
respuesta. La muestra puede hacerse visible, por ejemplo, al tener el color de la muestra en
la iluminación general de la caja experimental. En tal caso, el pi- [p. 214] geon aprendería a
pulsar las teclas rojas en una luz roja y las teclas verdes en una luz verde (asumiendo una
iluminación neutra
del fondo de las teclas). Pero un procedimiento que se apega más a la noción de
emparejamiento es inducir a la paloma a "mirar la muestra" por medio de un refuerzo
separado. Podemos hacer esto presentando primero el color en la tecla del medio, dejando
las teclas laterales sin color. Luego se refuerza (en segundo lugar) una respuesta a la tecla
central iluminando las teclas laterales. La paloma aprende a hacer dos respuestas en rápida
sucesión: a la tecla central y luego a una tecla lateral. La respuesta a la tecla lateral sigue
rápidamente a la estimulación visual de la tecla del medio, que es la condición necesaria
para una discriminación. El emparejamiento exitoso se estableció fácilmente en las diez
palomas analizadas con esta técnica. Elegir lo contrario también se configura fácilmente. La
respuesta discriminativa de golpear-rojo-después-ser-estimulado-por-rojo aparentemente no
es más fácil de establecer que golpear-rojo-después-ser-estimulado-por-verde. Cuando la
respuesta es a una clave del mismo color, sin embargo, la generalización puede
hacer posible que el pájaro coincida con un nuevo color. Esta es una extensión de la noción
de coincidencia que aún no se ha estudiado con este método.
Estos experimentos en unos pocos procesos superiores se han descrito necesariamente muy
brevemente. No se ofrecen como prueba de que las teorías del aprendizaje no son
necesarias, pero pueden sugerir un programa alternativo en esta área difícil. Los datos en el
campo de los procesos mentales superiores trascienden respuestas únicas o relaciones de
estímulo-respuesta individuales. Pero parecen ser susceptibles de formulación en términos
de la diferenciación de respuestas concurrentes, la discriminación de estímulos, el
establecimiento de varias secuencias de respuestas, etc. No parece haber una razón
a priori por la cual una cuenta completa no sea posible sin apelar a procesos teóricos en
otros sistemas dimensionales.
Conclusión
[ 1] Dirección del presidente, Asociación Psicológica del Medio Oeste, Chicago, Illinois,
mayo de 1949.
[ 2] Parte del material que sigue se obtuvo en 1941-42 en un estudio cooperativo sobre el
comportamiento de la paloma en el que colaboraron Keller Breland, Norman Guttman y
WK Estes. Parte de ella se selecciona de trabajos subsecuentes, aún inéditos, en la paloma
realizados por el autor en la Universidad de Indiana y la Universidad de Harvard. Las
limitaciones de espacio hacen que sea imposible informar todos los detalles aquí.
[ 3] No puede, de hecho, acortarse o alargarse. Cuando una latencia parece estar forzada
hacia un valor mínimo por refuerzo diferencial, se requiere otra interpretación. Aunque
podemos reforzar diferencialmente el comportamiento más enérgico o la ejecución más
rápida de la conducta después de que comienza, no tiene sentido hablar de respuestas de
refuerzo diferencial con latencias cortas o largas. Lo que en realidad reforzamos
diferencialmente son (a) comportamiento de espera favorable y (b) respuestas más
vigorosas. Cuando le pedimos a un sujeto que responda "lo antes posible" en el
experimento del tiempo de reacción humano, le pedimos esencialmente (a) que lleve a cabo
la mayor parte de la respuesta posible sin llegar realmente al criterio de emisión, (b) a haga
lo mínimo posible y (c) responda energéticamente después de que se haya dado el
estímulo. Esto puede producir un tiempo mensurable mínimo entre el estímulo y la
respuesta, pero esta vez no es necesariamente un dato básico ni nuestras instrucciones lo
han alterado como tal. Se requiere una interpretación paralela del refuerzo diferencial de
"latencias" largas. En los experimentos con palomas antes citados, se condiciona el
comportamiento preliminar que pospone las respuestas a la llave hasta el momento
adecuado. El comportamiento que "marca el tiempo" suele ser conspicuo.
Referencias
( 3) -----. La naturaleza de la reserva operante. Psychol. Bull ., 1940, 37, 423 (resumen).
( 4) -----. Refuerzo diferencial con respecto al tiempo. Amer. Psychol ., 1946, 1, 274-275
(resumen).