警惕心理学研究中的统计误用
未知 2006-12-27
【内容提要】正确地使用统计方法对心理学研究至关重要。但心理学研究中存在着诸多统计误用现象。该文着重分析了心理学研究中常见的一些统计误用现象:小或有偏样本的使用、在概率的理解上存在偏差、显著性检验问题、夸大的统计图、相关分析的误用等等,并在此基础上提出了提高研究者自身的统计素养、强调理论在心理学研究中的重要性、运用多样化的研究方法等应对之策。
【摘 要 题】学术广角
1从赌徒的谬误谈起
首先让我们来看一个有趣的例子[1]:一名赌徒在打赌硬币是正面朝上或是背面朝上时的情景。如果硬币正面朝上或朝下确实是随机的话,那么该名打赌者在任何一次压注时赢的概率都是0.5。假设这个人接连赌了5次,每次他都赌硬币正面朝上,而每次结果却都是背面朝上。现在他要赌第6次了,他该赌正面朝上还是背面朝上呢?或者说这时硬币正面朝上的概率大还是背面朝上的概率大呢?显然,投掷硬币时连续5次背面朝上是很不寻常的,这样的事件发生的概率非常低,赌徒注意到了这一点,所以,在下一次压注时,他加大了赌注,依然赌了正面向上,在硬币连续5次背面朝上后,他愈发相信硬币将正面向上了。结果很不幸,这位打赌者又一次输了。打赌者的错误就在于对概率规律的应用,一枚真的硬币应该有一半的时候正面朝上,这些规律只有在无数次大量的事件后才可能成立。对于很少的尝试次数而言,这些规律不适用。那名赌徒所忽略的是,每次硬币投掷都是一个独立事件,前面抛掷中发生的情况对接下来将要发生的事件没有任何影响。其实,赌徒对于第6次的尝试不会比前面的5次更有把握。正面朝上的概率依然没变。从某种程度上讲,赌徒的错误是很自然的事,他们确实是依据正确的概率规律所作的结论,经过大量的投掷,对一面真正的硬币而言,的确有50%的结果是正面向上,错就在把适用于大量事件发生时才有效的规律运用到了很少的事件上。在6次投掷中全部正面朝上或全部背面朝上并不是绝对不可能,因为概率还没有小到可以忽略不计。赌徒的谬误同样可能发生在心理学研究中。
科学心理学的目的在于理解人们的所思所想。为了达成此目的,心理学工作者收集信息和提供理论解释时使用的是大量的完备技术。正是对这些技术的恰当运用和对所得数据的合理分析构成了科学心理学的支柱。科学方法在心理学研究中的作用是显而易见的。因为科学心理学强调经验观察,而只有科学方法所确立的信念才是建立在经验观察之上,其他方法所确立的信念都不是建立在经验基础上的。经验观察的正确方法包括收集数据的科学程序和分析数据的科学程序,因而对数据加以分析的程序——统计的使用和理解在心理学研究中就变得非常关键和重要的。正如Wells所言:统计思维的能力有朝一日将如同阅读与书写的能力一样,成为一名合格公民的必须[1]。但是在心理学研究中存在着大量统计误用和乱用的现象,其原因是多方面的:有时仅仅是研究者出于某种目的和需要,有时是对统计学本身理解得不透彻、不深入,有时则是由于统计学本身的逻辑性造成的。统计在心理学研究中的重要性不能成为我们在任何时候任何场合可以误用或乱用统计学的理由。如果不对这些现象作深入的剖析,如果容忍这样的错误一犯再犯,那么统计学在心理学研究中的作用越大,造成的后果也就越严重。甚至可能为阻碍心理学的发展。因此要警惕心理学研究中的各种统计误用和乱用的现象。应该使自己在从事心理学研究时不会因为不小心而落入统计学的陷阱,也不人为地为别人设计统计学陷阱,同时在阅读他人的研究报告时也要注意不落入别人设下的统计学陷阱。本人把该文定名为警惕心理学研究中的统计学误用,其用意也正因为此。
2心理学研究中常见的统计误用
统计的方法是如此地有用,以至于有时我们似乎可以借助统计的方法使任何的观点站住脚。许多人都用统计来支持他们各自的观点。难怪有人这样说,世界上有3种谎言——谎言、该诅咒的谎言和统计。统计会说谎吗?其实统计本身并不会说谎,但它们却可以被人利用而给人以误导。以下是本人认为容易发生在心理学研究中的一些统计误用和乱用现象。
2.1小或有偏样本的使用
在心理学研究中,我们希望利用统计分析推论出普遍的结论,因此我们常常使用大样本的研究范式。在大样本研究范式里,有非常多的被试,因而任何一个不寻常的参与者都不会对结果形成多大影响,这样我们就可以得到一个相对普遍的结论。大样本研究设计已经成为心理学研究的一个标准。因此取样问题是心理学研究中一个非常重要的问题:我们在对数据作统计分析时就要想一想这些数据是怎么得来的,它的取样合理吗?所有的统计分析都是建立在数据的取得是合理、正确的前提下,如果取样不合理,无论多么高深和精美的统计方法都是无计于事的。合理的样本、准确的测量是使统计结论正确可靠的前提。但我们在进行研究时,有意无意地,在取样的合理性问题上总会打折扣。下面两种取样的问题在研究中就经常会发生:(1)样本过小;(2)有偏样本的使用。许多广告就会用小样本或有偏样本来误导消费者,比如说在电视上有一位明星说他喜欢喝某一品牌的饮料。广告商这样做的目的就是要给大家一个印象,因为这位明星喜欢这种品牌的饮料,所以所有的人(总体)也会喜欢它。而回归假象效应这一现象也说明了有偏样本的使用会导致我们得出错误的结论。所谓回归假象是指向平均数的回归,当我们从总体中挑选出极端分数组进行重测时,第二次测得的分数更接近于整个总体的平均数。我们在研究中经常会使用匹配技术,这时就可能有回归假象效应存在。如果在第一次测验的基础上对两组进行匹配,倘若研究者从通常做得很差的组中挑出高分者,从通常做得很好的组中挑出低分者,即使没有给予两组不同的实验处理,研究者仍可以预期他们在第二次测验中得分会很不同,其原因仅仅是因为向平均数回归。这方面一个典型的例子就是20世纪60年代在美国的一个“领先计划”研究。因此,无论何时你自己在进行研究和阅读别人的研究报告时,你都要问两个有关抽样的问题:(1)样本有多大?(2)样本是如何被选中的?
2.2在统计学的基础:概率的理解上存在偏差
应用于心理学研究中的定量研究方法大部分是基于概率理论之上的,概率是统计学的基础。我们借助于概率达到对未来的预测。如气象学家会说,明天有80%的几率会下雨,或有20%的可能会下雪。如我们前面提到的赌徒的例子。但倘若我们对概率的理解不透彻,就有可能犯错误,赌徒的谬论就是典型的例子。即使给予事件将要发生的先决条件,我们也很难有绝对的把握认为此事件必然发生,我们所能知道的仅仅是发生机会的比率或是一特定的概率。如根据我们的研究发现具有某一心理特点的人中有90%难以完成某一水准的学业,我们能否就可以据此来预测一个具有这样心理特点的人就不能完成学业呢[2]?显然我们并不能得出这样的结论。基于概率和统计学基础上得出的结论是从总体中得出的,我们在总结自己的某一研究时,总会这样表述:从总体上说,什么是怎么怎么样的……总体上得出的结论在具体用到某一个人身上不能过分绝对化。
鉴于此,人们对大样本研究范式也提出了批评,认为个体的心理活动是非常独特的,这种独特性并非都能作出普遍的概括。经过充分混合个体分数的“统计磨合机”的加工,这些独特性就丧失殆尽了。单靠统计未必就能够抓住事物的本质特征[3]。斯金纳就曾呼吁在操作性研究中使用小样本设计,因为他想强调削弱统计分析的重要性。他认为人们把统计的作用夸大了,统计分析通常被看成了目的而不是帮助实验者推出实验结论的工具。
2.3显著性检验问题
众所周知,统计显著性检验在心理统计学教科书中是作为推断统计的重要组成部分而引进的,它和参数估计组成了推断统计的两大基石[4]。心理学家有一个约定俗成的规定,即如果统计检验的计算表明虚无假设可能正确的概率小于0.05,那么我们就可以拒绝它而接受另一个假设。因为拒绝虚无假设可能犯错误的机会如此微小,我们有理由认为这么做是安全的。简单地就,推断统计被用于确定两种条件的结果差别是由自变量还是随机因素造成的。如果不同实验条件下所得的结果之间差异很大,而且这种差异由偶然因素导致的概率低于0.05时,那么研究者可以排除偶然因素导致该结果的可能性,而认为结果是自变量造成的。心理学家一般都认为推断统计比描述统计更能反映事物的本质,因为它用了概率论的知识,从样本数据到总体性质作了科学的推断。但是简单的显著性检验在应用中却会产生这样或那样的问题。尽管结论在统计上被认为是可信的,但由偶然因素(统计信度仍保持5%的错误概率)、一些未被注意到的混淆因素、或者实验者误差所造成的可能性仍然存在。例如,大多数聪明或大多数低智商的被试碰巧被分在一种条件中。尽管这些可能性不太容易出现,但有时它们确实发生了。
不少人对显著性检验存在误解,误认为经过显著性检验后其科学性就得到了保证,自己的观点就万无一失了。但事实上并非如此。近年来,人们对心理学研究中的显著性检验有诸多争议,Cohen在其著名的《地球是圆的(p<.05)》[5]一文中对此进行了列举。有鉴于此,美国心理学会统计推断特别工作小组发表了《心理学杂志中的统计方法——指导方针及其解释》[6]一文,以期引起人们对于显著性检验的思考。流行于研究者间的一句格言是“重复一次抵得上一千次t检验”,这句格言的要旨是许多研究者都相信实验验证要好于应用于初次实验结果的推断统计,这是非常有道理的。
2.4夸大的统计图
统计作为一种工具,往往为受到使用者本人主观意愿的制约。有人曾感叹统计学家会说话。确实,人们在统计指标的选择、统计图表的制作、统计方法的选用上都可能会带有自己的个人目的,具有一定的功利性。这一点可以从下面的例子中可见一斑。有一所高校近3年内因心理问题而被迫中断学业的人数从13增加到17、20人,学校的心理咨询中心为了呼吁人们对大学生心理健康问题的重视,因而想让人们知道该校学生的心理问题正变得越来越严重,单单因心理问题而中断学业的人数就在不断增加,所以他们以年份为横坐标,以心理问题而中断学业的人数为纵坐标绘制了一张统计图,通过把Y轴的标尺拉得很短,使学校心理问题而中断学业的人数的增加看上去很突出。而学校当局则往往不愿意这样来宣传自己的学校,于是根据同样的数据可以绘制了另外一张统计图,他们通过把Y轴的标尺拉得很长,给人以学校因心理问题而中断学业的人数相当稳定的感觉。两张图显示的结果都是正确的,但要说明的问题却大相径庭。无怪乎人们把统计与谎言并列。而这种被夸大的统计图在心理学研究中相当常见。因此,我们在读图时,必须仔细看清图中的标尺。此外更重要的是要确定差异在统计学上是否可靠,而是不挖空心思地使差异在图中显得足够“大”。
2.5相关分析的误用
观看暴力性电视节目会导致儿童的攻击性行为吗?有人曾研究了三年级的儿童,对他们对暴力电视的爱好及其同伴评价的攻击性进行测量,发现上述两个变量之间确实存在着中等程度的正相关(r=+0.21),那么我们该如何解释这一相关系数呢?可以这么说:这表明了攻击性强的儿童倾向于观看更多的暴力性电视节目。但我们还能进一步说正是因为观看暴力性电视节目才导致了儿童的攻击性行为吗?这涉及到对相关分析这一统计方法的理解问题。事实上,仅仅根据一个相关系数,我们无法确定事物之间的因果关系,单一的相关证据并不能作出有效的因果陈述。在本例中,我们可以把因果陈述颠倒过来:即儿童的攻击性行为导致了他们对暴力电视的爱好,也有可能有第3个变量,比如说家庭环境,才导致了儿童的攻击性行为与对暴力电视的爱好。相关分析一般只用于分析两个变量间的关联程度,要说明蕴含在相关背后的、对这种相关加以解释的本质则要借助于理论。或进一步对一些变量进行控制后作深入的研究,也可以对相关研究进行改进,如作交叉-滞后-组相关程序的研究(一种追踪研究,可以得出因素间的交叉-滞后相关),经过多重检验来提高相关研究的解释力。
对相关系数的另一个误用与取样有关,如果你取到的样本数据之间没有足够大的差异,就有可能产生全距限制现象,这时即使变量之间存在着高相关,但凭取到的数据却只能得出变量间的低相关,即由于取样的不合理性,计算出的相关系数就不能反映出真正变量间的相关,这种现象在心理学研究中也很普遍,因为心理学工作者常常会使用同质的总体进行研究,比如只选用大学生群体,所以在解释相关系数时一定要慎重考虑是否有全距限制现象存在。
3防止统计学误用的应对之策
既然统计学在心理学研究中如此重要,那么统计学一旦被误用,就有可能造成严重的后果,因此防止统计方法的误用也就显得尤为重要。防止统计方法的误用可以从以下几方面着手。
3.1提高研究者自身的研究素养
要防止统计方法的误用首先要注意提高研究者自身的研究素养,真正理解统计学的逻辑性。每种统计方法都有其自身的特点,有其使用的前提条件和适用范围。研究者要了解每种统计方法的特点和使用的前提条件,并分析你的研究中是否具备这样的条件,你所获取的数据适合什么统计方法,在此基础上才能使用某一种合适的统计方法。此外,对得出的统计结果应给予合理的解释。
3.2强调理论在心理学研究中的重要性
理论可以被粗略地被定义为解释多个事件的一组相关表述。运用理论可以对数据和心理现象的因果关系进行有效的解释。如前面谈到相关分析一般只用于分析两个变量间的关联程度。但我们可以借助于理论来说明蕴含在相关背后的、对这种相关加以解释的本质。在从儿童对暴力性电视节目的爱好和其同伴评价的攻击性两者的高相关中,我们不能简单地推论出因果关系,但这也不能一概而论。如人们对吸烟与肺癌的发生率作相关研究时发现两者存在着高相关,据此,人们认为吸烟可以引起肺癌。正是因为有这样的相关证据,人们就在烟盒上印上了相应的警告语,而且也禁止在电视和其他媒体上作广告。在这里,相关可以被作为推论因果关系的证据,是因为其他的解释缺乏合理性。因为人们不可能在患肺癌后去吸更多的香烟以安抚肺脏,而吸烟会导致肺癌的生理机制也非常的显而易见。鉴于此,我们依然可以从相关分析中得出因果关系,这不能不说是理论的作用。
在心理学中,理论具有两大功能:第一,它为数据的系统化和有序化提供框架。第二,它使得科学家能够在实验研究之前对一些事件作出预测。统计学绝不是思维的替代品,统计分析是一个服务于理论和假设检验的理论上的中立程序。理论和假设总是先于统计。在心理学研究中存在着忽视理论、将统计手段置于理论之上的现象,这无异于本末倒置。统计方法自始至终应该是为理论服务的,而不是为了统计而统计。
4运用定量研究和定性研究等多样化的研究方法
心理学研究方法论和方法的问题一直是心理学研究的重大问题。随着心理学的发展,近几年对该问题的争论有愈演愈烈之势。人们在反思定量研究的种种不足后又开始将目光投向定性研究。有人就反对用定量研究,认为:怎能将儿童的天真无邪、初恋的柔情蜜意、飞车疾驰的惊心动魄以及足球队失败后的撕心裂肺用客观枯燥的一串串数字来把握呢?
在心理学界,人们往往认为不能对资料作量化分析的即为定性研究,能够对资料作量化分析的即为定量研究。这一区分标准隐含着这样一个意思:二者的地位是不相等的,定量研究的科学性高于定性研究。事实上,单靠统计未必就能够抓住事物的本质特征。许多迷信定量研究的人,常常不关心如何收集具有高质量的数据资料,而是寄希望于先进的统计分析手段,热衷于各种“数字游戏”,希冀用高明的统计方法来掩盖粗劣的原始资料。这好比先进的机器设备加工劣质的原材料,如果输入的是垃圾,无论最先进的设备也只能生产与垃圾相关的产品。同时,过分强调定量研究,常常会使心理学研究走上非人化的道路,人的情绪情感、动机和主观感受常常被忽略,这会导致心理学的畸形发展。
我国著名心理学家陈立有感于心理学研究过分强调收集信息和提供理论解释时使用的大量完备技术而忽略心理学研究的人化,在《平话心理科学向何处去》[7]一文中说:心理学研究要从严格精密限制条件的实验室里解放出来。凯林在《心理学大曝光:皇帝的新装》[8]中也对心理学研究中的种种不足提出了批评,但他最终认为实证主义的科学方法是心理学科学方法的帝国主义。陈立先生则反对,他认为对心理学要进行战役性研究,在一个战役中,海陆空部队都要用,各种合法武器都要用,具体问题要具体解决,这才是真正的科学方法。比如爱因斯坦发明相对论,但有人问他怎么得出这么一个大道理来,他对这个问题的回答竟然是“只有通过对经验的共鸣理解为基础的直觉,才能得到这些定律。”这么说来,如果我们要了解爱因斯坦的这种思想过程,就不得不用人文科学的释义学了。因为释义学和自然科学的实验法相比,完全是另外一种方法,也可以说是主观的研究方法。由于心理现象的复杂性,心理学研究方法应该是多样化的。
实证研究的方法、定量研究的方法使心理学从哲学的母体中脱胎出来,对心理科学的发展起到了十分重要的作用,在以后心理学研究中还将发挥其巨大的作用。但要达到对心理现象的完整认识必须采用多元化的研究手段。任何单一的方法都只能对部分现象加以解释,只有采用多样化的研究方法才能最终殊途同归,达到从整体上了解人类自身所思所想的目的。
[1]BH坎特威茨,HL罗迪格,DG埃尔姆斯.实验心理学——掌握心理学的研究.上海:华东师范大学出版社,2001.629-630,574
[2]谢小庆.教育研究中定量研究的局限,心理发展与教育,1998,1:54
[3]王京生,王争艳,陈会昌.对定性研究的重新评价,教育理论与实践,2000,(2):49
[4]李伟明,曹怡.2000年APA统计推断特别工作小组的建议对我国心理统计教育的启示,心理科学,2001,24(3):286-287
[5]Jacon Cohen.The earth is round(p<.05).The American Psychologist,1994,49(12):997-1003
[6]Leland Wilkinson and Task Force on Statistical Inference:Statistical method in psychology journals:Guidelines and explanations.American psychologist,2000,55(8):1-27
[7]陈立.平话心理科学向何处去.心理科学,1997,20(5):385-389
[8]保罗·凯林.心理学大曝光——皇帝的新装.北京:中国人民大学出版社,1992