도구적 조건형성

어떤 행동을 학습시키는 가장 쉬운 방법은 그 행동이 일어나면 보상을 주는 것이다. 부모는 아이가 예절바르게 행동하면 칭찬을 해주고, 회사는 실적이 좋은 사람에게 보너스를 준다. 이런 보상을 받은 행동은 앞으로 더 많이 나타나게되고 보상받지 못하는 행동은 사라진다. 어떤 행동이 학습 될지 여부는 그 행동의 결과가 어떤것인지에 따라서 좌우된다. 유기체가 자신의 행동과 결과 사이의 관계를 학습하는 것을 도구적 조건형성이라고 한다. 어떤 행동이 특정의 결과를 초래하는 도구의 역할을 한다는 의미로 '도구적'이라는 말을 쓰는 것이다.

손다이크와 효과의 법칙

천리길을 걸어 주인에게 돌아온 개나 문을 열어 달라고 발톱을 긁는 고양이 같이 동물들을 통해서 1900년대에도 동물이 논리적인 사고를 한다는 주장까지 나왔다. 그러나 손다이크는 그러한 영리한 동물은 극소수 인 것을 상기시켰다. 그리고 동물들의 지능적 행동이 실제로 논리적 사고에 의한것인지, 다른 유기체의 행동을 모방한것인지, 어쩌다 우연히 일어난 것인지 알기 위해서는 동물들이 전혀 본적없는 새로운 문제를 주고 어떻게 해결하는지를 관찰해야 한다고 생각했다.

그리하여 문제상자를 만들었는데 문제상자는 그 속에 작은 널빤지가 밟힐 때 빗장이 뽑히면서 문이 열리게 되어 있다. 이러한 문제상자에 굶주린 고양이를 넣고 바깥에 먹이를 놓아두었다. 그러자 고양이는 우왕좌왕하다가 바닥이나 창살을 할퀴기도 하고 먹이를 향해 창살 사이로 앞발을 내밀고 야옹울기도 하였다. 얼마 동안 헤매던 고양이는 순전히 우연으로 널빤지를 밟게 되고 그러면서 문이 열려 빠져나가 먹이를 먹을 수 있었다. 다시 고양이를 문제상자에 넣고서 빠져나올떄까지를 한 시행으로 볼 때, 시행이 거듭될수록 점차 짧은 시간내에 정확한 반응이 나오게 되었다. 점진적인 향상이 나타난 것이다. 많은 시행을 거친 후에 고양이는 문제 상자 속에 놓이면 곧바로 널빤지를 밟고 빠져나오게 되었다.

만약 고양이가 논리적 사고를 한다면 문제상자에서 탈출하는데 걸리는 반응 잠재시간은 문제를 이해하고 해결한 시점에서 바로 짧아져야하고 그 이후로 거의 변화가 없어야한다. 해결 이후에는 널빤지를 밟는 것 이외의 반응들이 나오지 않을 것이기 때문이다. 그러나 결과는 그렇지 않고 여러시행에 걸쳐 점진적으로 습득되었다. 이런 습득과정을 시행착오학습이라고 부르고 도구적 조건형성과 동일한 의미로 쓰인다.

이 학습에서 작용하는 원리가 손다이크가 말한 효과의 법칙이다. 어떤 반응의 강도가 과거에 행동이 초래했던 결과에 좌우된다는 것이다. 한 반응은 보상이 뒤따르면 강해지고, 보상이 없거나 처벌이 뒤따르면 약해진다. 효과의 법칙에 따르면 동물에게 고차원적 지능적 과정의 존재르 가정할 필요도 없고 동물이 어떤 목표를 성취하기 위하여 노력한다고 생각할 필요도 없다. 동물은 어떤 반응을 하고 그에 잇다라 보상이 오면 이후에도 그 반응이 더 잘 수행될 뿐 이다.

스키너와 조작행동

스키너는 동물행동을 관찰하기 쉽도록 문제상자나 미로보다 훨씬 단순한 실험상황을 만들었다. 스키너 상자에는 쥐가 레버를 누르면 구석에 있는 먹이통에서 먹이알이 나오도록 되어있다. 동물의 반응은 컴퓨터로 기록되고 실험자는 동물이 상자속에서 하는 여러가지 행동 중 레버누르기에만 먹이를 줌으로 그런 반응들의 빈도를 높인다. 스키너는 동물의 이런 반응들을 그것이 환경에 어떤 조작을 가하는것이라는 의미에서 조작행동, 조작적 조건화라고 불렀다. 그래서 도구적 조건형성의 또다른 용어가 조작적 조건형성이다.

강화와 처벌

손다이크는 동물의 행동에 뒤따르는 결과가 만족스러운 것이면 그 행동이 더 강해지고 성가시면 약화된다고 했다. 그러나 스키너는 만족이나 성가심 같은 주관적 용어들을 완전히 객관적인 용어로 바꾸었다. 특정반응을 증강시키는 절차를 강화reinforcement, 약화시키는 절차를 처벌punishment라고 했다. 또 강화와 처벌을 일으키는 자극들을 강화물, 처벌물이라고 불렀다. 따라서 어떤 자극이 좋은 것으로 보이더라도 행동을 증강시키지 않으면 강화물이 아니고 혐오저긴것도 행동을 증강시키면 강화물로 간주한다.

강화와 처벌에는 두가지 종류가 있는데 반응 후에 자극의 출현이나 자극강도의 증가가 뒤따르면 정적강화나 정적처벌, 자극의 제거나 자극강도의 감소가 일어나면 부적강화나 부적처벌이라고 한다. 예를 들면 아이의 공부하는 행동은 부모의 칭찬을 받으면서 늘어나고(정적강화), 뜨거운난로에 손을 대었다가 통증이 오면 난로에 손대는 행동이 줄어들게 되며(정적처벌), 비가내릴때 우산을 쓰면 비를 맞지않게 되어 우산을 쓰는 행동이 증가하고(부적강화), 속도위반을 해서 벌금을 물게 되면 속도위반행동이 줄어들게 된다(부적처벌). 부적 처벌은 특정행동에 대하여 대가나 비용을 치르는 것이므로 반응대가나 반응비용이라고도 한다. 부적강화와 처벌을 혼동하기 쉽지만 강화는 행동을 증강, 처발은 행동을 감소시키는 것이라고 생각하면 쉽게 구분할 수 있다.