书城管理行为管理学
10405000000023

第23章 随机强化原理与应用

一、随机强化的含义

随机强化是指行为与影响该行为的事先和事后环境事件之间的关系。

从制约学习实验中可获得一项学习的基本原理,即强化的原理。一种动物只有在某种增强的方式之下,才能学习到一种新的制约反应。换言之,要建立刺激与反应间的一种新关系,必须以增强为基础。任何有助于某一刺激形成制约反应的事情均为增强刺激或增强物。

对于行为的养成或习惯的建立,增强物本身的影响力既深且巨,但增强物的给予方式也极为重要。如果每次行为的发生都给予适当的增强物,这叫做“继续增强”。在继续增强方式之下,行为获得所要求后果可能率是百分之百,从不失误或遗漏。假如行为的发生不是每次都能获得增强物,时有时无,时断时续,则是“部分增强”或称“间歇增强”。在部分增强方式下,行为获得所要求后果的可能率当然不是百分之百,而且须视个别情况而定。

斯金纳(B。F。Skinner)做了多次实验,对增强方式的了解与应用贡献较大。根据实验结果,一个随机强化由三个部分组成:前提、行为和结果。

前提先于行为发生并对行为而言是一个刺激。呈现或取消某特定前提能增加某特定行为发生的概率。

结果是行为的后果,结果是积极的还是消极的要看目标或任务的完成情况。管理者对员工的反应也要视行为的结果(有时是行为本身而不管结果)而定。

显示了随机强化的例子。首先,员工与管理者一起确定一个目标。接着,员工去执行任务以完成目标。如果员工达到了目标,管理者就会表扬员工及员工为达到目标而采取的行为。要根据达到目标的程度赞扬他,如果员工没有达到目标,管理者就不说什么或者责备员工。

一个事件的呈现(应用)或取消(消除)要视员工行为而定。事件也可以是积极的或令人厌恶的。积极事件是员工想要的或令其愉快的,而厌恶事件就是员工不想要的或令其不快的。显示了这些事件是如何组合成四种类型的随机强化的。它表明了某特定类型的随机关系是否可能增加或减少行为的频次、关系的基础。

强化是一种行为的随机关系,这种随机关系能增加某特定行为的频次。一方面,无论正、负强化总能增加员工行为的频次;另一方面,扣除与惩罚总能减少员工行为的频次。

二、正强化

正强化就是在想要的行为发生后提供令人快乐的结果。也就是说,管理者按照达到组织目标的程度来奖励员工想要的行为。

1.强化与奖赏

强化与奖赏的概念在使用时经常混淆。奖赏是个人觉得想要的和令自己快乐的事件。对于个人而言,奖赏是否强化物是主观的。一位管理者曾当众表扬某员工发现了报告中的一个错误,这位管理者坚信是在强化想要的行为。然而,后来却发现这位员工受到团队别的成员的冷落,再也不寻找错误了。

可见,奖赏要成为强化物,它就必须能增加先于其出现的行为的频次。例如,对于特定个体而言,金钱只有能增加想要的行为的频次时,才能被看做正强化物。如果行为的频次减少或保持不变,这时奖赏就不是强化物。

2.主要强化物与次级强化物

主要强化物就是个体已经知道其价值的事件。食物、遮蔽处以及水都是主要强化物。然而,主要强化物并不总是有强化作用的。例如,食物对于刚刚美餐一顿的人而言也许就不是强化物。

次级强化物就是曾经是中性价值的、但由于过去经验的作用也已经对个体表现出一定价值(积极的或消极的)的事物。组织中的大多数行为都受次级强化物的影响。金钱是次级强化物的一个明显例子。尽管金钱并不直接满足人类的基本需要,但由于个体能用它来购买必需品以及自己想要的物品,钱也就有价值了。

3.正强化的原则

影响正强化效果的一些因素,由于其有助于解释最优的强化条件,因而可以被认为是原则。

随机强化的原则。它表明强化物只有在做了想要的行为时才能给予。没有做想要的行为也给予强化物是没有强化效果的。强化的原则表明,如果在想要的行为发生后立即给予强化物,强化效果最好。实施强化的时间越是滞后于行为,强化就越没有效果。

强化大小原则。它表明在想要的行为之后发放的强化物越大,强化对想要的行为的频次的影响作用越大。强化物的数量或大小是相对的。对一个人有作用的强化物对另外的人不一定有用。因此,强化物的大小必须由行为与个人两者之间的关系来决定。

强化剥夺原则。它表明个人被剥夺的强化物越多,对想要行为未来发生的频次也就越有影响。然而,如果个体最近拥有足够的强化物,已经得到了满足,这个时候强化也就没有什么效果了。

三、组织奖赏

组织一般使用的实物奖赏如薪水、奖金、额外的福利等都是很明显的,大多数组织也提供更广泛的许多并不太明显的奖赏,包括赞赏、认同、分配给想要的任务、改善工作条件以及额外的休假时间。这些奖赏带来骄傲,同时也激励别的员工为了获得它们而去奋力创造出新的点子。还有,自我实行奖赏也非常重要。例如,自我鼓励对于完成一项特别难的任务而言可能是一个非常重要的个人强化物。包含了一系列相当广泛的组织奖赏。但是奖赏只有在个人自愿接受它们并觉得它们是自己想要的或令人快乐的时候,才能成为强化物。

在负强化中,当想要的行为发生时,先于员工行为的不快事件就被消除。这个程序增加了想要行为发生的可能性。负强化有时候和惩罚容易混淆,因为两者都是采用令人不快的事件去影响行为。然而,负强化是用来增加想要行为的频次,而惩罚是用来减少不想要行为的频次。

当某员工没有做应该做或需要做的事情时,管理者常采用负强化。例如,飞行调度员一般都缺乏一种这样的能力,就是当飞机靠得太近时,要拉亮飞机座舱上的闪光灯并打开轰鸣器的能力。所以,除非飞机间相隔已经相当远了,否则飞行调度员一般是不会关掉那些装置的。飞行员为了逃避这种灯光和轰鸣声,开始驾驶飞机相互远离。这种类型的程序就称为逃避学习。在逃避学习中,一个不快事件一直存在,除非员工做出一定的行为或逃避反应来消除它。回避与逃避很接近,在回避学习中,个人是通过完成某一适当的行为来防止不快事件发生的。例如,你在遇到几次计算机程序出错后,就会学会用必要的命令来避免计算机出错。逃避与回避都是增加想要的行为、消除不快事件的负强化类型。

五、扣除

扣除就是消除所有强化性事件。强化是为了增加想要的行为的频次,扣除则是为了减少不想要的行为的频次,并最终消除不想要的行为。管理者使用扣除以减少有碍组织目标达成的员工行为。扣除程序由三步组成:

(1)识别出需要减少或消除的行为。

(2)识别出保持行为的强化物。

(3)终止使用强化物。

扣除对于减少并最终消除扰乱正常工作秩序的行为而言是一项有用的技术。例如,团队通过嘲笑某员工的扰乱行为可对该行为起到强化作用。当团队不再笑话(强化物)该行为时,扰乱行为就会减少并最终停止。

扣除也可以视为积极强化某行为的失败。在这种情况下,对行为的扣除可能是偶然的。如果管理者强化想要的行为失败,他们可能不知不觉正在使用扣除。结果是,想要行为的频次可能会不经意地减少了。

扣除可以有效地减少员工的不想要的行为,但它不能自动地用想要的行为来代替不想要的行为。如果员工没有形成替代行为,经常出现这样一种情况:当扣除一停,不想要的行为又出现了。因此,在使用扣除时,必须把它和别的发展想要行为的强化方法一起结合使用。

六、惩罚

惩罚是跟随行为之后以减少该行为频次的一个不快事件。与正强化一样,一项惩罚可能包括一个特定的前提,该前提暗示员工特定行为后会有结果(惩罚)。正随机强化是增加想要行为的频次,随机惩罚则是要减少不想要的行为的频次。

一个事件必须能减少不想要的行为才能称为惩罚物。不能仅仅因为某事件被认为是令人不快的,就认为该事件一定是惩罚物。在定义为惩罚物之前,它必须确确实实能减少或停止不想要的行为。

组织经常使用一些不同类型的不快事件来惩罚个体。没有恰当完成任务的物质惩罚包括削减工资、无薪停职一段时间、降级或者调到一个没有前途的工作岗位等。对某员工没有完成任务的最终惩罚就是解雇。一般而言,除非是严重的行为问题,组织一般是不用这些令人不快的形式来惩罚的。

人际惩罚物也被较广泛地使用。它们包括管理者对员工的让人无法接受的行为的口头责备,以及非口头的惩罚物,如皱眉、抱怨和进攻性的肢体语言。某些任务本身就可能是令人不快的。正如刺耳的或肮脏的工作环境被视为惩罚物一样,重体力劳作后的疲劳也被认为是一种惩罚物。然而,在运用惩罚物时必须学会谨慎。在一些领域对一些员工而言,刺耳的或肮脏的工作环境可能会被视为仅仅是随工作本身而来的东西。

前面讨论的积极强化的原则也同样适用于惩罚。为了取得最大化的效率,惩罚物必须直接和不想要的行为联系起来(随机惩罚的原则);惩罚物应该立即呈现(即时惩罚的原则);还有,惩罚物越大,对不想要行为的作用也就越大(惩罚的大小原则)。

1.惩罚的负效应

反对使用惩罚的一个论点就是惩罚有可能会带来负效应,从长期或持续一段时间来看更是如此。即便惩罚可以让不想要的行为不再发生,但是潜在的负面结果可能比最初的不想要的行为更大。

惩罚可以导致一些不想要的情绪反应。因为多休息一会儿而遭到责备的员工可能对管理者和组织产生愤怒的反应。这些反应可以导致有损组织的行为发生。例如,怠工就是典型的以惩罚为中心的管理体系的结果。

惩罚只能在短期内压制不想要行为,而不能消除它。这样,要长期压制不想要的行为经常要求持续的也许是逐步严重的惩罚。另外,对不想要的行为的控制也要看管理者是否在场。当管理者不在周围时,员工的不想要行为可能就会复发。

被惩罚的个体可以设法回避或逃避这种情境。从组织的观点来看,如果员工是在回避一项特别的、必要的任务,这种反应可能就是不可接受的。高旷工率是一种回避反应,当经常使用惩罚时,它就可能发生。辞职是员工最后的一种逃避形式,依靠惩罚的组织就有可能出现员工的高流动率。一定的流动率是需要的,但是过度的流动率是对组织有害的。招聘、训练代价高昂,有能力的、高技能的员工更可能受到挫折而离开单位。

惩罚会压制员工的创造力和适应能力。基于对惩罚做出的反应,许多员工将只做被告知的事情而不会多做。这样的态度显然是组织所不想要的,因为组织要依靠员工工作的首创性和创造性。过分的惩罚会产生冷漠的员工,这样的员工并不是组织的有利财产。持续的惩罚也可能导致低自尊。低自尊反过来会影响员工的自信,而自信对于完成大多数工作而言是非常必要的。

惩罚也会产生对管理的条件性恐惧。也就是说,员工形成了一种对以惩罚为中心的管理者普遍的恐惧。这样的管理者已经成为了一种环境线索,它暗示员工不快事件发生的可能性。如果工作需要管理者与员工之间经常的、正常的以及积极的相互作用的话,情况常常会迅速变得难以容忍。对恐惧的反应,如“躲避”或不愿意与管理者沟通,会极大地影响员工的绩效。

管理者依赖惩罚也许是因为惩罚在短期内会迅速发生作用。从本质上说,管理者使用惩罚也是被强化的,因为这种方法会使员工的行为发生迅速的改变。这也可能导致管理者忽视惩罚带来的长远意义上的、可能逐步递增的负面效果。尽管一些惩罚可能不会产生负面效果,但是长期、持续地使用经常也会给组织带来负面的后果。

2.使用惩罚的效果

从长远来看,积极强化比惩罚效果更好。然而,惩罚只要有效地使用,在管理中还是有效的。在组织中最普通的惩罚形式就是口头责备,它会减少或消除某个不想要的员工行为。相对公开惩罚而言,私下惩罚建立了一种不同的随机强化。一般而言,私下惩罚更具教育性与启发性。公开惩罚可能会带来负效应,因为当着群体的面,遭到惩罚的员工会觉得难堪。

口头责备永远不要针对整个行为,尤其不要针对所谓的坏态度。一个有效的惩罚,应能准确地找出并详细描述在将来应该避免的不想要行为。它针对的应是目标行为,而不要损伤员工的自我形象。有效的惩罚特别针对不想要的行为,而不是这个人。行为比人容易改变。

惩罚是训练人不要做什么,而不是要做什么。因此,管理者必须把替代行为描述给员工。当员工表现出想要的替代行为后,管理者应该对之给予积极强化。

最后,管理者在使用不快事件与快乐事件上要达成一种适当的平衡。不快乐事件的绝对数目并不重要,重要的是快乐事件与不快乐事件的比率。若管理者经常使用正强化,则偶尔一次使用恰当的惩罚可能相当有效。然而如果管理者从不使用正强化,完全依靠惩罚,那么长期的负效应可能会抵消任何短期的利益。

七、使用随机强化

正强化物能让员工重复某个想要行为,所以它对于员工而言一定具有价值。如果某员工一直准时上班,管理者或领导通过赞扬员工就可以积极地强化这个行为。但是,如果该员工在过去已经由于迟到而受到责备并说要准时工作,这时管理者或领导应该使用负强化并避免说一些让员工尴尬的话。期望员工学会通过准时上班来避免这类不快的言辞。

如果该员工继续上班迟到,管理者可以使用扣除或惩罚来阻断这种不想要的行为,如使用扣除或领导不表扬该员工。如果员工的行为继续下去的话,可以采用惩罚,包括责备、罚款或短期停职,甚至最终解雇。在工作背景中应用随机强化时,推荐使用下列指导原则:不要用同样的方式奖赏所有的员工;仔细检查行动与不行动的结果;让员工知道哪些行为将被强化;让员工知道他们错在哪里;不要当着其他人的面惩罚员工;结果和行为要相匹配,不要用员工应得的报酬来欺骗他们。学习强化原理的应用对于管理者有直接关联。

建议管理者应有下列的作为:施予惩罚与报酬,时间越短,帮助越大;尽快让学习者知道他们反应的结果,是对或错;因为一个错误的形态重复过多就很难改变,故管理者发现错误后,要尽快告诉他们不当之处;尽可能给予符合事实的学习经验;在学习中留些时间,让学习者有体验问题和寻求解答的时间。

八、强化程序

强化总是有意或无意地按照某种程序来实施。强化程序决定了什么时候呈现强化物。

1.连续强化与间隔强化

连续强化意味着每次行为发生时都给予强化,它是一种最简单的强化程序。向软饮料售卖机里投硬币就是连续强化的一个例子。投硬币的行为被机器送出的一听饮料(大多情况下)所强化(以一种连续程序)。在组织中,言语赞誉和实物奖赏一般并不以连续程序出现。

间隔强化是指在想要的行为发生之后(而不是每次)才给予强化物。间隔强化可以分成间隔与比率程序以及固定和可变程序。

在一个间隔程序中,强化物必须过了一段时间后才能给予。在一个比率程序中,强化物必须在完成一定数量行为时才能给予。这两个程序又可以被细分为固定(不变)或可变(持续变化)程序。这样,就有了四种主要的间隔程序:固定间隔、可变间隔、固定比率以及可变比率。

2.固定间隔程序

在固定间隔程序中,强化物必须在经过一段固定时间后才能提供。第一个想要的行为要在过了一段时间后才能被强化。例如,在一个固定间隔为一小时的程序中,想要的行为第一次出现后要一个小时才能给予强化。

按照这种程序来实施奖赏的目的是为了形成一种规则的行为模式。在强化之前,行为经常发生并且富有活力。在紧跟强化后的一段时间,行为发生的次数变少了,也不那么富有活力了。因为个体相当迅速地了解到,下一个奖赏不会马上就来,而是要过一段时间。用固定间隔程序来实施奖赏的一个普遍的例子就是每周、每两周或每月付给员工薪水。也就是说,钱币强化总是在一段特定时间的末期定期进行。可能这样的时间间隔一般太长,以致对于新近获得的与工作相关的行为没有很大的强化效果。

3.可变间隔程序

可变间隔程序表示在两个强化物之间的时间量是变化的。

4.固定比率程序

在一个固定比率程序中,一个想要的行为必须发生一定次数后才能被强化。若以固定比率程序实施奖赏,则当强化停止时倾向于产生高的反应率,其后还会出现稳定行为期。员工不久就会认为强化是基于反应数量的,于是为了获得奖赏就尽可能快地做出反应。在企业使用的个人计件工资制就是一个固定比率程序的例子。

5.可变比率程序

在一个可变比率程序中,给予强化物之前必须有一定数量的行为发生,只不过行为的数量围绕着某些平均数上下变化。管理者经常使用可变比率程序来表扬和赞誉。例如,博彩场所和国家彩票都是用这种强化程序来引诱顾客去掷骰子、玩纸牌、喂老虎机以及买彩票。顾客有时会赢,但是并没有任何规律可循。

6.间隔强化程序间的比较

对四种间隔强化程序进行了小结。比率程序——可变或固定——经常比间隔程序效果要好。原因在于:比起基于一段时间的间隔程序而言,比率程序与想要行为的发生更为接近。

第四节修正行为

一、修正行为的含义

行为修正是指建立在操作性条件反射基础上的过程和原则。

二、准确寻找相关的行为

从管理的角度看,并非员工的所有行为都是想要的或不想要的。事实上,很多行为是中性的,它们既不能增加也不能降低实现组织目标的可能性。因此,应用行为修正原则的第一步也是最重要的一步,就是识别出对员工整个绩效有显著影响的行为。接着,管理者就应该以它们为中心,设法增加想要的行为,减少不想要的行为。准确找出相关的行为,由三个步骤组成:

(1)观察这些行为。

(2)测量这些行为。

(3)描述这些行为发生的情境。

管理者经常需要训练,才能准确地找出这些行为。没有经过训练的管理者经常把员工的态度、感情以及价值观与行为混淆在一起。管理者追踪、研究员工行为有一个方法,即用图画出或度量出其行为随时间变化的轨迹。

三、选择一种随机强化

在设法矫正员工行为时,过去的经验给了高效的管理者一个选择随机强化的有价值的工具。对过去的情境或同一员工的相似事件进行概括的能力是非常必要的。如果管理人员能够成功改变目标行为,那么这种随机强化必须继续维持一段时间以取得长久的效果。

谁也不能保证所选择的任何一种随机强化都有效果。每位管理者都会遇到第一次干预失败的情况。这时,应该继续选择另一种随机强化进行尝试,或对想要的行为重新定义。无论如何,必须重复整个过程的每一步。然而对原来的努力的评估会简化整个过程。可能得出结论的认为,采用另一种正强化是必要的,并且要用它来努力增加员工受欢迎的行为。也可以尝试另一种不同类型的随机强化,例如从正强化转向负强化,或者也可以把各种随机强化结合使用。

四、行为修正问题

使用行为修正原则涉及三个重要的问题:个别差异、群体规范和伦理意识。

1.个别差异

行为修正经常忽视个人与个人之间需求、价值观、能力以及欲望等方面的差别。对某些人有强化作用的东西对其他人则不一定有效。但是有效的管理者或领导会从两个方面解决个别差异问题。第一,他们会尽力挑选并使用那些珍视组织提供的奖赏的职员。合适的员工选拔方法能使员工的需要与组织所提供的强化物最相匹配。尽管这个方法不容易做到,但对管理者来说不失为处理个别差异问题的一个有效的手段。第二,管理者或领导可以让员工参与到奖赏自己的决策中去。这样一来,如果现用的随机强化没有效果,就要求员工提出他们的建议以改变现在的状况。这个方法让员工更有权利设计他们的工作环境,应该能增强他们的参与程度。

2.群体规范

当员工认为管理人员是在设法损害他们时,员工群体中就会产生规范来调整和管理人员的合作程度。这种调整的典型反映是限制产量。当这种情况发生时,必须采纳一种可能迎合来自工作群体的僵硬抵制的程序(尤其是依赖表扬和别的非物质奖赏的程序)。但群体成员仍会认为没有必要与管理层合作,因为这种行为只会迫使他们去提高生产力,而不是相应地给予加薪或别的奖赏。

群体规范的力量能够减少许多奖励制度的有效性。首先,员工和管理者之间一定要建立相互信任的关系。只要有了这一点,所有原则都会有成功的机会。

3.伦理意识

行为修正在伦理学领域已经引起一些争论,批评主要集中在人的自由与尊严上。按照行为修正的支持者的看法,有效管理员工的途径就是要建立塑造员工行为的控制系统。支持者看到行为是由其结果塑造的,并且从组织的观点来看,管理者应该按照能促进想要行为的途径来安排奖赏。他们对个体选择哪些行为来满足自己需要和欲望的自由并没有太多的考虑。

反对者则驳斥那些为他人决定什么是好的或有益的,并有权力来控制和强加给他人决定的人的伦理道德。他们质问,控制会对人的自我价值感造成什么样的影响呢?向已经喜欢任务的员工许诺奖赏可能会导致他们把奖赏看做完成任务的一种激励,于是就会削弱他们对任务的喜爱。

管理者还有一些别的问题也要考虑。员工可能只注意那些正被奖赏或测量的行为,而忽视那些不被奖赏或测量的行为。例如,管理者可能按照生产出的产品数量来奖赏而忽视产品的质量标准;或者他们可能去测量员工的马虎度或旷工率,而不是尽力去测量员工的思想以及对工作的别的贡献。因为前者是比较容易测量的,而后者较难测量。在这样的情况下,员工会准时上班,但是工作的质量可能会受到影响。许多管理者觉得社会压力强化了他们自己也确实不想要的行为。这种强化可能会引导员工忙于行动,即便这些行为可能影响员工的效率。

五、员工的教育培训

近年来,学习理论已经被应用在组织中的管理工作。其中教育培训就是在使员工学习需要的技巧、正确的工作方法,增进其能力,以提高整体的生产力。

在组织中,最需要接受训练者包括两类人员:第一种人员是必须学会某些特定工作的人员,尤其是新进员工,或无法胜任目前工作的员工(即工作绩效太差的工作者)。第二种人员是组织中的基层管理干部。因此,为了长远打算及提高组织生产力,必须早做人才培训计划,以发展人力资源。员工教育培训对组织颇为重要。

组织培训员工时,因训练的对象不同(例如一般工人、基层干部及经理人员),其训练的重点或许有异,但目的不外乎以下三点:

1.授予工作的知识和技能

让员工学习与他们当前所从事或将来可能从事的工作的有关知识与技能,借以增进工作能力与创造力。

2.培养与改变态度

组织要提高生产力,除了使员工具备必要的知识与技能外,还需要员工对组织的向心力、对同事的友好,以及对工作的热忱等积极态度,以增进团队精神以及相互间的信赖关系。

3.传达各种情报消息

向员工说明组织的概况,介绍组织的方针,以及其他知识,以增进他们的工作能力及吸收不同的工作经验。

对员工教育培训必须要有训练计划,而计划的拟定必须要照一定的程序或步骤。以下的步骤是必要的:

确定培训目标,明确受训者应学习的知识、技能及态度,以配合工作要求及组织的希望。

决定培训的对象,因对象不同,哪些人应该接受哪种培训,要慎重选拔。

针对受训者的性质与训练的目的选择训练方法,拟定训练计划。

训练后,要以科学的评价方式衡量训练成果,并配合实施。

对于培训后是否能帮助员工获得预期的技能、知识与态度,必须经过有系统的评价过程。