Игровые автоматы используют переменное соотношение, потому что __

08.09.2021

Фиксированное соотношение - по расписанию подкрепление доставляется после каждого n-го ответа .; Пример: продавец подержанных автомобилей получает бонус в размере 1000 долларов США за каждые 10 проданных автомобилей, или так называемую комиссию. График переменного соотношения - усиливается в среднем каждый n-й ответ, но не всегда на n-м ответе. Пример: игровые автоматы, потому что количество нажатий на рычаг является переменной. В отличие от расписаний с переменным соотношением, которые усиливаются после случайного числа случаев поведения (например, в игровом автомате), расписание VI основано на времени. Поведение, закрепленное в этом графике, обычно медленное и устойчивое. На самом деле, лучше всего подходят VI-графики подкрепления. Переменное соотношение Если поведение, например, игра в игровой автомат, постоянно усиливается, оно изначально сильное, но a. Остается сильным еще долго после того, как игра перестает приносить удовольствие.Игровые автоматы используют график с переменным соотношением, что дает невероятный эффект. Несмотря на то, что соотношение всегда будет в пользу машины, люди во всем мире часами сидят, дергая за рычаг, в ожидании джекпота. И, как и в MMORPG, зависимость - серьезная проблема. Жизни людей разрушены.

Тщательно отслеживая возникновение поведения и частоту вознаграждений, Скиннер смог найти закономерности. Получение награды каждый раз, когда нажимают на рычаг, было бы примером непрерывного подкрепления. Но Скиннер также хотел знать, как может измениться поведение, если вознаграждение не будет всегда. Это известно как прерывистое подкрепление.Выигрыш 50 земель со свободным слотом (или частичное подкрепление). Отслеживая накопленные поведенческие реакции животных в своих оперантных ящиках с течением времени, Скиннер мог видеть, как различные графики вознаграждения влияют на время и частоту поведения. Хотя каждый из этих подходов можно было разнообразить бесчисленным множеством способов, Скиннер протестировал четыре основных типа расписаний.

Фиксированное соотношение (торговый автомат)

График с фиксированным соотношением следует последовательному шаблону закрепления определенного количества действий. Это может быть вознаграждение за каждое поведение (1: 1) или вознаграждение только за каждый пятый ответ (5: 1) в соответствии с некоторым установленным правилом. Подобно тому, как никто постоянно не скармливает монеты сломанному торговому автомату, когда установленное соотношение нарушается (например, когда каждое нажатие уровня больше не доставляет еду), животные быстро учатся сдерживать свое поведение.

Переменное соотношение (игровой автомат)

График с переменным соотношением вознаграждает определенное поведение, но делает это непредсказуемым образом. Подкрепление может последовать после жима 1-го или 15-го уровня, а затем может последовать сразу после следующего пресса или, возможно, не последовать еще 10 нажатий. Непредсказуемая природа расписания с переменным соотношением может привести к высокой частоте поведения, поскольку животное (или человек) может полагать, что следующее нажатие «будет тем», которое принесет вознаграждение.

Это тип подкрепления, который можно увидеть в азартных играх, поскольку каждая следующая игра может принести большую выгоду. Скиннер обнаружил, что поведение, поощряемое графиком переменного соотношения, наиболее устойчиво к исчезновению. Чтобы проиллюстрировать это, рассмотрим сломанный торговый автомат (фиксированное соотношение) и сломанный игровой автомат (переменное соотношение). Как долго вы будете класть деньги в сломанный торговый автомат? Вы, вероятно, сдадитесь после того, как ваша первая или, может быть, вторая попытка не привела к восхитительному батончику Snickers. Но теперь представьте, что вы играете в игровой автомат, который сломан и не может выплатить (хотя все остальное, похоже, работает). Вы можете сыграть 15 или более раз, прежде чем перестанете вставлять монеты и нажимать кнопки.

Фиксированный интервал (зарплата)

В расписании с фиксированными интервалами подкрепление поведения предоставляется только через фиксированные промежутки времени. Награда может быть предоставлена ​​через 1 минуту, каждые 5 минут, один раз в час и т. Д. При реализации этого расписания Скиннер обнаружил, что частота поведения будет возрастать по мере приближения времени получения награды (гарантируя, что животное получит награду) , но затем уменьшится сразу после получения награды, как если бы животное знало, что еще одна награда не появится в ближайшее время.

Это может быть проблемой для людей с фиксированными интервалами, такими как двухнедельные или ежемесячные выплаты заработной платы, поскольку трудозатраты могут быть сокращены сразу после получения зарплаты (точно так же, как большинство студентов сокращают усилия в учебе в дни сразу после экзаменов, потому что следующие экзамены пока не приду).

Переменный интервал (популярная викторина)

В расписании с переменным интервалом подкрепление поведения обеспечивается через переменный интервал времени с момента последнего подкрепления. Это означает, что голубь может быть вознагражден за клевание через 10 секунд или может быть вознагражден через 1 минуту, затем через 5 минут, затем 5 секунд, и временной интервал между подкреплениями всегда меняется. Этот график дает медленную и устойчивую скорость ответа. Голубь клюет стабильно, поэтому не упускает возможности получить подкрепление, но торопиться не стоит, так как это не повлияет на продолжительность задержек.

Человеческое сравнение может быть классом, в котором в разное и непредсказуемое время даются всплывающие викторины для получения дополнительных баллов. Это побудит студентов учиться понемногу каждый день, чтобы всегда быть готовыми зарабатывать баллы, хотя они, вероятно, не будут впихиваться часами каждую ночь.

Суеверные умы

Скиннер также пытался вознаграждать животных наугад, бросая еду в коробку в непредсказуемое время, которое не соответствовало какому-либо конкретному желаемому поведению. Вместо того, чтобы ничего не делать и просто ждать прибытия еды, животные, которых награждали, случайным образом проявляли причудливое «суеверное» поведение.

Если животное поднимало ногу или поворачивало голову в момент, предшествующий награде, это поведение усиливалось, что увеличивало вероятность его повторения. Если бы это поведение случайно повторилось, когда награда была доставлена ​​снова (случайным образом), это еще больше укрепило бы поведение. В результате Скиннер обнаружил, что голуби кружатся или прыгают на одной ноге просто в результате этого случайного подкрепления. Отсюда мы можем рассматривать все виды суеверного поведения людей, от танцев дождя до талисманов на удачу и соли, брошенной через плечо, в результате случайных случаев подкрепления.

Ищете дополнительную информацию о теории обучения и бихевиоризме? Этот пост - отрывок из учебной главы курса «Вводная психология». Вы можете найти эту главу в электронной версии Тома 2 или в полном печатном издании.

Цели обучения

  1. Обрисуйте принципы оперантного обусловливания.
  2. Объясните, как можно сформировать обучение с помощью расписания подкрепления и дополнительных подкреплений.

При классическом кондиционировании организм учится связывать новые стимулы с естественными биологическими реакциями, такими как слюноотделение или страх. Организм не узнает что-то новое, а скорее начинает выполнять существующее поведение при наличии нового сигнала. Сдругой стороны, оперантное обусловливание- это обучение, которое происходит на основе последствий поведения и может включать обучение новым действиям. Оперантное обусловливание возникает, когда собака переворачивается по команде, потому что ее хвалили за это в прошлом, когда хулиган в школе угрожает своим одноклассникам, потому что это позволяет ему добиться своего, и когда ребенок получает хорошие оценки, потому что его родители угрожают наказать ее, если она этого не сделает. При оперантном кондиционировании организм учится на последствиях своих собственных действий.

Как подкрепление и наказание влияют на поведение: исследования Торндайка и Скиннера

Психолог Эдвард Л. Торндайк (1874-1949) был первым ученым, систематически изучавшим оперантную обусловленность. В своем исследовании Торндайк (1898) наблюдал за кошками, которые были помещены в «коробку-головоломку», из которой они пытались выбраться («Видеоклип: Головоломка Торндайка»). Сначала кошки царапали, кусали и шлепали наугад, не зная, как выбраться. Но в конце концов и случайно они нажали на рычаг, открывший дверь, и вышли к своей добыче - куску рыбы. В следующий раз, когда кошка была заключена в коробку, она предприняла меньше неэффективных ответов перед тем, как совершить успешный побег, и после нескольких попыток кошка научилась почти сразу же реагировать правильно.

Примеры армирования с переменным соотношением

Наблюдение за этими изменениями в поведении кошек привело к тому, что Торндайк разработал свой закон эффекта, принцип, согласно которому реакции, которые создают типично приятный результат в конкретной ситуации, с большей вероятностью повторятся в аналогичной ситуации, тогда как реакции, которые приводят к типично неприятному исходу. менее вероятны повторения в этой ситуации (Thorndike, 1911). Суть закона эффекта состоит в том, что успешные ответы, поскольку они доставляют удовольствие, «отпечатываются» на опыте и, таким образом, возникают чаще. Неудачные ответы, которые вызывают неприятные переживания, «вытесняются» и впоследствии возникают реже.

Когда Торндайк поместил своих кошек в коробку с пазлами, он обнаружил, что они быстрее научились выполнять важное побегание после каждого испытания. Торндайк описал обучение, которое следует за подкреплением, в терминах закона эффекта.

Смотрите: «Головоломка Торндайка» [YouTube]:http://www.youtube.com/watch?v=BDujDOLre-8

Влиятельный поведенческий психолог Б. Ф. Скиннер (1904–1990) развил идеи Торндайка и разработал более полный набор принципов для объяснения оперантной обусловленности. Скиннер создал специально разработанную среду, известную как оперантные камеры (обычно называемые коробками Скиннера ), для систематического изучения обучения. Ящик Скиннера(оперантная камера) - это конструкция, достаточно большая для размещения грызуна или птицы и содержащая стержень или ключ, на которые организм может нажать или клевать, чтобы высвободить пищу или воду. Он также содержит устройство для записи ответов животного (рис. 8.5).

Самые основные эксперименты Скиннера были очень похожи на исследования Торндайка с кошками. Крыса, помещенная в камеру, отреагировала, как и следовало ожидать, сновала по ящику, принюхиваясь и царапая пол и стены. В конце концов крыса наткнулась на рычаг, на который она нажала, чтобы высвободить гранулы пищи. В следующий раз крысе потребовалось немного меньше времени, чтобы нажать на рычаг, и при последующих испытаниях время, необходимое для нажатия рычага, становилось все короче и короче. Вскоре крыса нажимала на рычаг так быстро, как могла съесть появившуюся пищу. Как и было предсказано законом эффекта, крыса научилась повторять действие, которое привело к появлению пищи, и прекратить действия, которые не привели.

Скиннер подробно изучил, как животные меняют свое поведение посредством подкрепления и наказания, и разработал термины, объясняющие процессы оперантного обучения (Таблица 8.1, «Как положительное и отрицательное подкрепление и наказание влияют на поведение»). Скиннер использовал термин « подкрепление»для обозначения любого события, которое усиливает или увеличивает вероятность поведения, а термин « каратель» -для обозначения любого события, которое ослабляет или снижает вероятность поведения . И он использовал термины « положительный» и « отрицательный» для обозначения того, было ли подкрепление представлено или удалено соответственно. Таким образом, положительное подкреплениеусиливает реакцию, представляя что-то приятное после ответа, а отрицательное подкреплениеусиливает реакцию, уменьшая или удаляя что-то неприятное . Например, похвала ребенка за выполнение домашней работы представляет собой положительное подкрепление, тогда как прием аспирина для уменьшения головной боли - отрицательное подкрепление. В обоих случаях подкрепление повышает вероятность того, что поведение повторится в будущем.

Таблица 8.1. Как положительное и отрицательное подкрепление и наказание влияют на поведение. Термин оперантного кондиционирования Описание Исход Пример
[Пропустить таблицу]
Положительное подкреплениеДобавить или усилить приятный стимулПоведение усиливаетсяВручение приза студенту после того, как он или она получит пятерку на тесте
Отрицательное подкреплениеУменьшите или удалите неприятный раздражительПоведение усиливаетсяПрием обезболивающих, снимающих боль, увеличивает вероятность того, что вы снова будете принимать обезболивающие.
Положительное наказаниеПредставьте или добавьте неприятный раздражительПоведение ослабленоДавать ученику дополнительное домашнее задание после того, как он или она плохо себя ведет в классе
Отрицательное наказаниеУменьшите или удалите приятный раздражительПоведение ослабленоЗабираем компьютер у подростка после того, как он или она пропустили комендантский час

Подкрепление, как положительное, так и отрицательное, увеличивает вероятность поведения. Наказание, с другой стороны, относится к любому событию, которое ослабляет или снижает вероятность поведения . Положительное наказаниеослабляет реакцию, представляя что-то неприятное после ответа , тогда как отрицательное наказаниеослабляет реакцию, уменьшая или удаляя что-то приятное . Ребенок, который оказывается на земле после ссоры с братом или сестрой (положительное наказание) или теряет возможность пойти на перемену после плохой оценки (отрицательное наказание), с меньшей вероятностью будет повторять такое поведение.

Хотя различие между подкреплением (которое усиливает поведение) и наказанием (которое его уменьшает) обычно очевидно, в некоторых случаях трудно определить, является ли подкрепление положительным или отрицательным. В жаркий день прохладный ветерок можно рассматривать как положительное подкрепление (потому что он приносит прохладный воздух) или отрицательное подкрепление (потому что он удаляет горячий воздух). В остальных случаях подкрепление может быть как положительным, так и отрицательным. Можно курить сигарету как потому, что она приносит удовольствие (положительное подкрепление), так и потому, что она устраняет тягу к никотину (отрицательное подкрепление).

Также важно отметить, что поощрение и наказание - это не просто противоположности. Использование положительного подкрепления для изменения поведения почти всегда более эффективно, чем применение наказания. Это связано с тем, что положительное подкрепление заставляет человека или животное чувствовать себя лучше, помогая создать позитивные отношения с человеком, обеспечивающим подкрепление. Типы положительного подкрепления, которые эффективны в повседневной жизни, включают словесную похвалу или одобрение, присвоение статуса или престижа и прямую финансовую выплату. С другой стороны, наказание с большей вероятностью приведет только к временным изменениям в поведении, поскольку оно основано на принуждении и обычно создает негативные и враждебные отношения с человеком, обеспечивающим подкрепление. Когда наказание уходит из ситуации,нежелательное поведение, вероятно, вернется.

Создание сложного поведения с помощью оперантного кондиционирования

Возможно, вы помните, как смотрели фильм или были на шоу, в котором животное - может быть, собака, лошадь или дельфин - делало довольно удивительные вещи. Дрессировщик дал команду и дельфин доплыл до дна бассейна, поднял кольцо на носу, выпрыгнул из воды через обруч в воздухе, снова нырнул на дно бассейна, поднял еще одно кольцо, а затем отнес оба кольца к тренеру на краю бассейна. Животное было обучено выполнять этот трюк, и для его обучения использовались принципы оперантной обусловленности. Но это сложное поведение далеки от простых отношений «стимул-реакция», которые мы рассматривали до сих пор. Как можно использовать подкрепление для создания такого сложного поведения?

Один из способов расширить использование оперантного обучения - изменить расписание, по которому применяется подкрепление. До сих пор мы обсуждали только график непрерывного подкрепления, в котором желаемая реакция подкрепляется каждый раз, когда она возникает ; например, всякий раз, когда собака переворачивается, она получает печенье. Непрерывное подкрепление приводит к относительно быстрому обучению, но также к быстрому исчезновению желаемого поведения после исчезновения подкрепления. Проблема в том, что, поскольку организм привык получать подкрепление после каждого поведения, реагирующий может быстро сдаться, когда оно не появляется.

Большинство реальных подкреплений непостоянны; они происходят по расписанию частичного (или прерывистого) подкрепления- расписанию, в котором ответы иногда подкрепляются, а иногда нет . По сравнению с непрерывным подкреплением графики частичного подкрепления приводят к более медленному начальному обучению, но они также приводят к большему сопротивлению исчезновению. Поскольку подкрепление не появляется после каждого поведения, учащемуся требуется больше времени, чтобы определить, что награда больше не приходит, и, таким образом, вымирание происходит медленнее. Четыре типа графиков частичного армирования приведены в Таблице 8.2, «Графики армирования».

Таблица 8.2 Графики армирования. График подкрепления Объяснение Пример из реального мира
[Пропустить таблицу]
Фиксированный коэффициентПоведение усиливается после определенного количества ответов.Заводские рабочие, получающие зарплату в зависимости от количества производимой ими продукции
Переменное соотношениеПоведение усиливается после среднего, но непредсказуемого количества ответов.Выплаты в игровых автоматах и ​​других азартных играх
Фиксированный интервалПоведение усиливается для первого ответа по прошествии определенного времени.Люди, получающие ежемесячную зарплату
Переменный интервалПоведение усиливается при первом ответе по прошествии среднего, но непредсказуемого количества времени.Человек, проверяющий электронную почту на наличие сообщений

Графики частичного подкрепления определяются тем, предоставляется ли подкрепление на основе времени, которое проходит между подкреплениями (интервал) или на основе количества реакций, в которых участвует организм (соотношение), а также тем, происходит ли подкрепление на определенном этапе. регулярное (фиксированное) или непредсказуемое (переменное) расписание. В фиксированном интервальном графике, усиление происходит в первом ответ сделал после того, как определенное количество времени прошло. Например, по расписанию с фиксированным интервалом в одну минуту животное получает подкрепление каждую минуту, при условии, что оно проявляет такое поведение хотя бы один раз в течение минуты. Как вы можете видеть на Рисунке 8.6, «Примеры паттернов реакции у животных, обученных различным схемам частичного подкрепления», животные, работающие по графикам с фиксированным интервалом, как правило, замедляют свою реакцию сразу после подкрепления, но затем снова усиливают поведение по мере того, как следующее подкрепление приближается. (Большинство студентов учатся для экзаменов точно так же.) В переменном интервале графика, то подкрепления появляются на отрезке графика, но время изменяются вокруг среднего интервала, делая фактический вид упрочнителя непредсказуемы. Примером может служить проверка вашей электронной почты: вас подкрепляют сообщениями, которые приходят в среднем, скажем, каждые 30 минут, но подкрепление происходит только в случайное время. График интервального подкрепления, как правило, обеспечивает медленную и стабильную скорость реакции.

В графике с фиксированным соотношением, поведение усиливается после определенного числа ответов . Например, поведение крысы может быть усилено после того, как она нажала клавишу 20 раз, или продавец может получить бонус после того, как он или она продал 10 товаров. Как вы можете видеть на Рисунке 8.6, «Примеры паттернов реакции животных, обученных различным графикам частичного подкрепления», как только организм научится действовать в соответствии с графиком фиксированного соотношения, он будет делать паузу только на короткое время, когда подкрепление происходит, прежде чем вернуться к высокий уровень отзывчивости. График переменного отношенияобеспечивает упрочнители после определенного , но среднего числа ответов. Выигрыш денег в игровых автоматах или лотерейный билет - это пример подкрепления, которое происходит по графику с переменным соотношением. Например, игровой автомат (см. Рисунок 8.7, «Игровой автомат») может быть запрограммирован на выдачу выигрыша в среднем каждые 20 раз, когда пользователь дернет ручку. График соотношения, как правило, дает высокий уровень ответов, потому что подкрепление увеличивается по мере увеличения количества ответов.

Сложное поведение также создается посредством формирования, процесса направления поведения организма к желаемому результату посредством использования последовательного приближения к окончательному желаемому поведению.. Скиннер широко использовал эту процедуру в своих ящиках. Например, он мог научить крысу нажимать на перекладину два раза, чтобы получить еду, сначала давая пищу, когда животное приближалось к стойке. Когда такое поведение было изучено, Скиннер начинал давать пищу только тогда, когда крыса касалась стойки. Дальнейшее формование ограничивало армирование только тогда, когда крыса нажимала на стержень, когда она нажимала на стержень и касалась его второй раз, и, наконец, только когда она нажимала на стержень дважды. Хотя на это может уйти много времени, таким образом оперантное обусловливание может создавать цепочки поведения, которые подкрепляются только тогда, когда они завершаются.

Непрерывное армирование возникает, когда

Подкрепление животных, если они правильно различают похожие стимулы, позволяет ученым проверять способность животных к обучению, и различия, которые они могут делать, иногда бывают замечательными. Голубей приучили различать образы Чарли Брауна и других персонажей Арахиса (Cerella, 1980), а также разные стили музыки и искусства (Porter & Neuringer, 1984; Watanabe, Sakamoto & Wakita, 1995).

Поведение также можно тренировать с помощью вторичных подкреплений . В то время как первичное подкреплениевключает стимулы, которые естественным образом предпочтительны для организма или которые им нравятся, такие как пища, вода и облегчение боли , вторичное подкрепление(иногда называемое условным подкреплением ) представляет собой нейтральное событие, которое стало ассоциироваться с основным подкреплением через классические методы. кондиционирование. Примером вторичного подкрепления может быть свисток дрессировщика животных, который со временем ассоциировался с основным подкреплением - едой. Пример повседневного вторичного подкрепления - деньги. Нам нравится иметь деньги не столько на сам стимул, сколько на первичные подкрепления (вещи, которые можно купить за деньги), с которыми они связаны.

Ключевые выводы

  • Эдвард Торндайк разработал закон эффекта: принцип, согласно которому реакции, создающие типично приятный результат в конкретной ситуации, с большей вероятностью повторятся в аналогичной ситуации, в то время как реакции, которые приводят к типично неприятному исходу, с меньшей вероятностью повторятся в этой ситуации. .
  • Б. Ф. Скиннер расширил идеи Торндайка, чтобы разработать набор принципов, объясняющих оперантное обусловливание.
  • Положительное подкрепление усиливает реакцию, представляя что-то обычно приятное после ответа, тогда как отрицательное подкрепление усиливает реакцию, уменьшая или удаляя что-то, что обычно неприятно.
  • Положительное наказание ослабляет реакцию, представляя что-то обычно неприятное после ответа, тогда как отрицательное наказание ослабляет реакцию, уменьшая или удаляя что-то, что обычно приятно.
  • Армирование может быть частичным или непрерывным. График частичного подкрепления определяется тем, предоставляется ли подкрепление на основе времени, которое проходит между подкреплениями (интервал) или на основе количества реакций, в которых участвует организм (соотношение), и тем, происходит ли подкрепление на регулярное (фиксированное) или непредсказуемое (переменное) расписание.
  • Сложное поведение может быть создано посредством формирования, процесса направления поведения организма к желаемому результату посредством использования последовательного приближения к окончательному желаемому поведению.

Упражнения и критическое мышление

  1. Приведите пример из повседневной жизни каждого из следующего: положительное подкрепление, отрицательное подкрепление, положительное наказание, отрицательное наказание.
  2. Подумайте о методах подкрепления, которые вы можете использовать, чтобы научить собаку ловить и подбирать фрисби, который вы ей бросаете.
  3. Посмотрите следующие два видео из текущих телешоу. Можете ли вы определить, какие обучающие процедуры демонстрируются?
    1. Офис : http://www.break.com/usercontent/2009/11/the-office-altoid-experiment-1499823
    2. Теория большого взрыва [YouTube]: http://www.youtube.com/watch?v=JA96Fba-WHk

    использованная литература

    Серелла, Дж. (1980). Голубиный анализ картинок. Распознавание образов, 12, 1–6.

    Кассин, С. (2003). Основы психологии. Река Аппер Сэдл, штат Нью-Джерси: Prentice Hall. Получено с веб-сайта «Основы психологии» Прентис Холл: http://wps.prenhall.com/hss_kassin_essentials_1/15/3933/1006917.cw/index.html

    Портер, Д., и Нойрингер, А. (1984). Музыкальные различия голубями. Журнал экспериментальной психологии: процессы поведения животных, 10(2), 138–148.

    Торндайк, Э.Л. (1898 г.). Интеллект животных: экспериментальное исследование ассоциативных процессов у животных.Вашингтон, округ Колумбия: Американская психологическая ассоциация.

    Торндайк, Э.Л. (1911). Интеллект животных: экспериментальные исследования.Нью-Йорк, Нью-Йорк: Макмиллан. Получено с http://www.archive.org/details/animalintelligen00thor.

    Ватанабэ С., Сакамото Дж. И Вакита М. (1995). Голубиная дискриминация живописи Моне и Пикассо. Журнал экспериментального анализа поведения, 63(2), 165–174.

Еще новости