第28章评鉴中心的准确性(1)

关键内容：评鉴中心的效度；为什么说评鉴中心有效；成本收益分析。

前面几章详细介绍了评鉴中心方法的几个关键要素。我们已经讨论了如何选择测评指标以及怎样设计测评项目以产生与测评指标相关的行为；总结了单个测评师如何观察和评价行为，测评师团队如何形成一致、准确的评判；我们还谈到了高层管理人员如何在测评信息的帮助下做出组织决策，测评对象及其上级如何利用这些信息提高他的管理和专业技能。

现在，让我们从细节讨论中跳出来。以整体的眼光再度审视评鉴中心。在我们回答评鉴中心是不是一种有效的人力资源管理工具的时候，必须提到下面几个问题：

评鉴中心测量什么？

为什么说评鉴中心有效？

与其他测评方法相比，评鉴中心有什么优缺点？

实施一个评鉴中心要花多少成本？

评鉴中心效用如何，即收益能否弥补（超过）成本？

测评参与者如何看待评鉴中心？

其实，这些问题的核心就是评鉴中心的效度(validity)。这里的效度是指评鉴中心在多大程度上能够实现其既定目标。从技术上讲，任何测评工具都有可能在一定程度上实现人们的目标。而我们所关注的是，所有的证据加起来能不能满足本书对评鉴中心提出的3个要求：界定高级管理岗位所需要的潜能、诊断与工作相关的各种技巧和资质、提供管理培训。

实际上，在前面几章里，我们已经回答了这些问题。例如，在第七章里我们已经说过，评分标准从整体上揭示了管理取得成功所需要的潜能。

各测评指标上的得分准确地诊断出个人的优劣势，这也就在另一方面构成了培训发展的基础。现在，让我们讨论一些更加深入、更加困难的问题。

评鉴中心的各种效度

要回答“评鉴中心测量什么”，必须从经验主义的研究中寻找答案。

我们不能根据一次相关检验或一次文献研究的结果就得出“评鉴中心有/没有价值”的结论。我们必须仔细回顾大量的文献，这些文献的研究内容包括：测评数据与各种参数（包括工作绩效）的关系；不同测评工具对测评结果的影响；时间对测评结果的影响；性别、种族、年龄、评分模式对测评结果的影响等。

为了更好地理解评鉴中心的效度，我们不妨把他们简单分为三类：一是内容效度(contentvalidity)；二是效标效度(criteriavalidity)；三是建构效度(constructvalidity)。

内容效度

与内容效度相关的信息包括各种测评活动。这里有两个要点：（1）测评材料能否代表员工在现实工作中遇到的情况；（2）在测评过程中应该表现出来的能力是不是现实工作中所要求的。典型的内容效度检测过程就是由专家来评估这两个要求是否得到了满足。检测过程不必涵盖所有的工作内容，只要考察那些重要的和主要的工作范围即可（工业与组织心理学协会，1987）。

在讨论应用于私人企业的评鉴中心的效度问题时，最通常的做法是判断测评演练材料与实际的工作情景的相似性（Gaugleretal.，1990）。扞卫评鉴中心的企业通常都会说：（1）他们在工作分析的基础上选取了测评指标；（2）测评演练活动代表了经常发生的重要工作场景；（3）在测评演练活动中表现出来的行为能够被归入相应的测评指标（当然，这些测评指标都与工作业绩相关）；（4）测评师都经过培训，他们能够准确一致地观察测评对象的各种行为表现。收集证据来验证内容效度并不是一件容易的事情。1987年，Sackett指出，在验证评鉴中心的内容效度的时候，我们不能只关注前面这几点，以下内容也得重视：向测评对象介绍的各种背景信息；测评时使用的评分系统；测评结果的解释方法等。之所以要强调这些内容，是因为它们会对评分产生影响。

如果人们希望通过测评来了解测评对象的知识技能水平，内容代表性就可能很高。因此用于诊断当前培训发展需求的评鉴中心（比如，第2章提到的金波利兄弟制造厂）和用于衡量候选人工作能力的评鉴中心的内容效度相对较高。

《评鉴中心操作指南和伦理问题》（TaskForce，1989，参见附录）所设计的评鉴中心充分考虑了内容效度问题。这篇文章的作者是研究和应用评鉴中心的顶尖高手。他们代表了这个领域的最新进展。这篇文章向我们介绍了评鉴中心应有的操作规范，尽管早期的评鉴中心——甚至包括某些最近实施的评鉴中心，有许多都并没有这样做。评鉴中心的设计人员在设计时遵循以下工作步骤显得至关重要：详细的工作分析，界定测评指标，设计能够体现出相应测评指标的演练情境，培训测评师，建立评分系统，最后是设计信息整合系统。这些步骤对于内容效度是至关重要的。

Sackett（1987）对评鉴中心用于测量管理潜能时的内容效度检验程序提出了质疑，随后，又有人站出来反对他的观点（如，Norton，1981）。在我看来，要检验内容效度就必须先了解评鉴中心的操作过程。况且，统计研究的结果也表明，评鉴中心能够准确预测对象未来的管理业绩。

预测效度

即使是最严厉的批评者也不能否认，总的来说评鉴中心的测评结果能够预测未来的管理成就。表9.1总结了若干关于测评总结果预测效度的研究结果。其中，最早的是1970年Byham发表在《哈佛商业评论》上的一篇研究论文，最晚的是1987年Gaugler，Rosenthal，Thornton和Bentson发表的的一份统计分析报告。

总而言之，对测评总结果预测效度的评价为0.40。这就表明，在评鉴中心里得分较高的人通常会在工作中比较成功，而得分较低的人则反之。表9.2清楚地说明了评鉴中心的预测效度。1965年起的研究表明，测评结果认为能够升到中层管理岗位的大学毕业生里，有48%的人的确坐到了这个位置上；测评结果认为不能升到这种岗位的大学毕业生里，只有11%的人升到了这个位置。在未接受大专院校教育的人群里，这两个数字OAR能够找出那些步步高升的管理者。从测评结果来看，成功管理者的得分高于不成功的管理者。OAR与业绩的相关系数范围从0.27到0.64。

OAR与业绩的相关系数为0.33，与潜能的相关系数为0.63，与职业晋升的相关系数为0.40。

OAR能够预测职业晋升情况、业绩水平等。

统计分析的结果表明OAR与工作业绩的相关系数为0.43。

统计分析的结果表明OAR与一系列才能指标的相关系数为0.41。

统计分析的结果表明OAR与晋升、工作业绩评价等的相关系数为0.37。

更加戏剧化：分别为32%和5%。8年甚至16年后，预测效果愈加显得准确，也就是说，越来越多的据说能够升到中层管理岗位的人被说中了。当然，16年后，也有许多原来不被看好的大学毕业生得到了提拔。

这里纯粹是对预测效度的研究。在研究过程中，测评结果并未泄漏给任何企业，也从没有人根据它来制定人员晋升决策。

这些数据清楚地说明了评鉴中心是有效的，换句话说，测评总结果与现实成就高度相关。需要说明的是，上面用到的研究结果有的已经公开出版了，有的则没有；有些研究是出于纯粹的学术研究目的，有的是出于个别企业的使用目的；某些研究还包括了许多因素，既有管理级别的提升情况，也有培训效果或工作业绩的评价，甚至还有独立研究人员对工作效率的观察和研究。因此，我们无需怀疑这些研究的代表性和公正性。

评鉴中心效度差异研究

并不是所有的评鉴中心都具有相同的预测效度水平。现在，人们还无法确定究竟是什么原因使得评鉴中心显得比其他测评方法更加有效。1987年，Gaugler等人对评鉴中心效度的统计研究给我们提供了非常有价值的信息。正如我们在第7章中讲到的，测评结果的预测效度为0.37，这里充分考虑了不同的研究方法以及统计方法（如样本量）带来的影响。需要着重强调的是，有效水平在0.37上下浮动的空间很大：有的仅仅0.25或0.15，也有的高达0.55或0.65，标准差（standarddeviation）为0.12。标准差是对相关系数差异的研究，它表明相关系数在多大程度上偏离了0.37这一平均值。我们在0.37周围建了一个置信区间（confidenceinterval）。例如，下限0.21与上限0.53之间确立出90%的置信区间。这就意味着，我们可以在90%的程度上相信测评结果与实际成就的相关系数不低于0.21。

如果评鉴中心设计得好，我们可以认为它的准确性达到0.53，甚至更高。

我们可以从上述事实中总结出两点结论。一是对测评总结果的预测效度的肯定，换言之，我们可以通过研究大量的评鉴中心来得出这种测评方法有效的结论；二是从过去的研究结果来看，测评总结果的预测准确度差异很大。这表明，影响评鉴中心预测准确度的主要因素并不是研究方法本身。

那么，究竟是什么因素影响了评鉴中心的准确性呢？1987年，Gaugler等人深入地研究了这个问题。他研究了与效度相关的各种变量（当然，某些变量很难研究清楚）。从图9.1可以看出，随着演练项目数量的增加，评鉴中心的整体效度水平也有所上升。这种趋势非常明显。当然了，即使评鉴中心采用了多种演练形式，其效度水平似乎还是不太让人满意。

大量研究表明，评鉴中心的若干特征都与它的效度有关。用到的测评手段越多，评鉴中心就越有效。由心理学家和管理人员共同担任测评师，或者在测评中包含同级评价，都会提高其有效性。这些研究结果既能够告诉我们哪些因素会影响到评鉴中心的效度，又指出了评鉴中心之所以有效的原因。

另外，Schmitt等人在1990年发表的研究报告中说，情境变量也会影响到评鉴中心的效度。他们研究了一个用评鉴中心在某行政区域（由若干个分区构成）范围内选拔中学校长的案例。这项研究指出，评鉴中心的执行质量对效度有重要影响。具体地说，在本案例中，下列做法都有助于提高评鉴中心的效度：更多地由校长而不是大学教授担任测评；把测评的实施放在几个而不是一个分区内进行；尽量避免与测评对象有过密切工作关系的人担任测评师等。

建构效度

考察建构效度就是要了解测评工具是否反映了企业利益的心理学特征（AmericanEducationalResearchAssociation，1985）。尚没有人对测评内容进行专门的研究，但是，为了揭示测评分数所代表的实际含义，我们还是要回顾大量的相关研究文献。目前能够找到的任何关于测评内容代表性问题和预测准确性问题的研究以及我们在第六、七章已经介绍过的研究成果都是我们要考虑的对象。

读者或者还记得，在第六章里我们说过，测评师要观察测评对象在测评时表现出来的各种行为现象，并把这些行为归入相应的测评指标范围。

任何测评师个人就某一项测评指标在单项测评演练工具的基础上做出的评价都可能不准确。不可否认，用同一个测评演练工具测量不同的指标，所得到的分数难免会相互影响，而且这种影响程度往往会超过我们的心理预期。测评师在各项指标上的打分很容易被“这个人表现不错”或“不好”

的总印象左右。这种情况之所以会发生是由于我们要求测评师在单项测评演练活动结束后就给出分数。这种做法正是行为报告法所不取的。

相反地，如果测评师在完成若干项测评演练活动后才进行打分，其准确性和一致性都会高很多。进一步说，在第七章里我们已经讨论过，测评师之间经过信息汇总和讨论，他们给出的分数就更加趋于一致，也更加准确。最终，我们就会发现，综合了所有测评师在全部测评项目中的意见以后，测评总结果就能准确地预见到未来的管理业绩和晋升情况。

现在，让我们考虑这样一个基本问题：“为什么说评鉴中心有效”。这个问题是Klimosli和Briskner在1987年提出来的。对它的回答可以帮我们清楚地界定下面要讨论的问题。Klimosli和Briskner指出，由于评鉴中心能够预测未来，于是人们就普遍地认为它很有效。但是，为什么这么有效呢？

除了传统的解释，Klimosli和Briskner又总结出了5条理由。

传统的解释：测评师判断出哪些测评指标与工作相关，然后得出一个总的测评结果，这一结果能准确预测未来的管理业绩。

现实的效标污染：评鉴中心花费不菲，于是人们就会想尽一切办法利用现有的发现。测评总结果不可能一直不公布，这些结果需要成为现实工作中的决策依据。各种管理决策，比如晋升、薪，甚至业绩评估都要参考测评结果。如此一来，就人为地提升了测评结果与实际业绩的相关性。

潜在的效标污染：由于测评师常常又是企业管理人员，他们往往和那些搞绩效评估的管理人员持有相同的看法或偏见。测评师或许做出了错误的评价，搞绩效评估的人评价的也许并不是真正的工作业绩。所以，预测效度的计量就难免受到“污染”，以至于这一效度被拔高了。

自我证明：那些被挑出来参加评鉴中心的人多少觉得自己有能力，所以才被选中。他们在测评的时候通常都发挥得很好，接下来又获得了正面的反馈。于是，他们会在工作中进一步提高自己的管理才能，从而证实了测评师当初的判断。

业绩持续性：这里有两种观点。一种观点认为，测评师从测评对象背景资料中获知其过去的业绩信息，这些信息能够预测预测未来的业绩状况。另一种观点是，测评时可以通过测评对象在工作样本中的表现来预测未来的业绩水平。因此，我们完全可以舍弃那些抽象的概念，比如测评指标之类。

管理智力：测评结果反映了测评对象的智力水平，并不是对管理业绩指标的衡量。

评鉴中心有效性的几种解释

接下来，我们要逐一讨论Klimosli和Briskner对评鉴中心有效性的各种解释。同样，也有人反对他们的观点，拥护传统的解释。

现实的效标污染

第28章 评鉴中心的准确性(1)

第28章评鉴中心的准确性(1)