统计方法选择与综合运用
陈长生 2011-01-30
【摘要】 实验设计、 资料搜集与整理分析是科学研究的3个紧密联系的阶段, 而良好的设计是顺利地进行实验和收集数据、 分析数据的先决条件。统计方法的选择与正确应用依赖于研究方案中的统计学设计,应充分考虑实验目的、 设计类型、 观察指标组成的资料性质和样本大小等。
【关键词】 统计学; 统计方法; 统计分析; 研究设计
正确运用统计方法的前提是良好的实验设计。如果试验前没有良好的设计, 或者设计存在缺陷, 那么, 即使使用高级的计算机和复杂的统计方法处理数据, 也只能得到错误的结论。对于生物(医学)研究者来说, 统计问题咨询应该在一个研究项目开始之前, 而不是在研究数据出来以后。没有系统学习过生物(医学)统计学的许多实际工作者常常错误地认为统计分析是在试验完成后才考虑的问题, 而且不考虑研究目的、 资料类型以及统计方法的前提条件等有关统计方法选择的问题。需强调的是,实验设计、 资料搜集与整理分析是科学研究的三个紧密联系的阶段, 而良好的设计是顺利地进行实验和收集数据、 分析数据的先决条件, 希望通过运用统计方法的计算来弥补设计上的错误是不可能的, 也是有害的[1]。
1 统计分析步骤
统计方法的选择依赖于研究方案中的统计学设计。统计学设计是要求研究工作者, 根据研究目的规定研究因素, 选择观察指标, 确定研究对象的样本含量, 拟定研究的实施方法及数据收集、 整理和分析的模式, 以达到用最少的人力、 物力和时间, 获得可靠的结论。在实际工作中, 必须根据医学研究目的、 设计类型、 资料性质、 样本大小和分析过程中所遇到的各种实际情况等, 并结合专业方面的知识来恰当地选择和运用统计分析方法, 才能做出正确的、 符合实际的结论。在区分了研究资料的反应变量和解释变量的基础上, 数据的统计分析主要回答两个问题: 一是反应变量的差异是否可归因于分组因素或对比因素? 二是多个反应变量之间是否存在某种联系? 因此, 医学科研数据统计分析大致分以下4个步骤。
1.1 数据整理 主要进行数据质量的核查、 异常值的处理, 考察数据分布及变量转换等, 以及看数据是否符合特定统计方法所要求的条件。如计算均数和标准差要求数据基本上呈正态分布, 方差分析要求各组方差的差别不宜过大等。
1.2 统计描述 按分组因素或控制因素分组计算反应变量的基本统计量, 如均数、 百分率、 标准差、 标准误等, 得出资料的大致轮廓和进一步分析方向。结果的表达方式主要是统计图或统计表[2, 3]。
1.3 统计推断 选择和运用恰当的统计方法(见统计方法选择)作详细分析, 如均数间的差异比较进行t检验或方差分析、 反应变量间的相互关系进行相关分析、 反应变量与解释变量的依存关系拟合各类回归模型等等。各种假设检验得到的P值是下结论的主要依据[2-4]。
1.4 结果表达 将各种分析结果简单明了地表达出来, 为专业上的分析讨论提供统计学背景[4]。有条件的话, 前3个步骤应在计算机上借助统计软件完成。另外, 以上4个步骤只是一种粗略地划分, 对有些资料,统计描述即可得出较为明确的结论。对于随机分组的实验设计资料或随机抽样的调查资料, 一般可根据资料性质和分析目的找到恰当的统计方法。但对于对比性资料的分析, 往往需要同时用多种统计方法进行处理或拟合复杂的统计模型。
2 统计方法选择
生物(医学)科学研究从研究设计开始到数据的收集、 整理、 分析的全过程中, 统计学知识始终贯穿其中, 而统计分析方法的正确选择在数据处理中至关重要。在研究方案制定时选择何种统计分析方法取决于实验的目的、 不同的设计类型、 观察指标组成的资料性质和样本大小等。
在研究设计时, 统计方法的选择需考虑以下6个方面的问题: (1)看反应变量是单变量、 双变量还是多变量; (2)看单变量资料属于3种资料类型(计量、 计数及等级资料)中的哪一种; (3)看影响因素是单因素还是多因素; (4)看单样本、 两样本或多样本; (5)看是否是配对或配伍设计; (6)看是否满足检验方法所需的前提条件, 必要时可进行变量变换, 应用参数方法进行假设检验往往要求数据满足某些前提条件, 如两个独立样本比较t检验或多个独立样本比较的方差分析, 均要求方差齐性, 因此需要做方差齐性检验。如果要用正态分布法估计参考值范围, 首先要检验资料是否服从正态分布。在建立各种多重回归方程时, 常需检验变量间的多重共线性和残差分布的正态性。
不同的统计分析方法都有其各自的应用条件和适用范围。实际应用时, 必须根据研究目的、 资料的性质以及所要分析的具体内容等选择适当的统计分析方法, 切忌只关心P值的大小(是否<0.05), 而忽略统计分析方法的应用条件和适用范围。
3 统计方法综合运用实例
例 根据2001年进行的大规模调查, 已知某地健康青年男子身高均数为168.34 cm, 体重均数为57.20 kg, 同年在该地应征男性青年中随机抽取120名男子, 测得其身高、 体重资料见表1, 试对该资料进行统计分析[1]。表1 120名应征男性青年的身高与体重资料
3.1 资料的分布特征和数字特征的统计描述 本例属于单样本双变量计量资料。对该资料进行统计分析时, 首先应对每一个变量的分布类型及其特征进行统计描述, 编制直方图或频数表, 计算相应的统计描述指标, 然后在此基础上选择和运用恰当的统计方法进行统计推断, 最后作出明确结论。
本例的身高、 体重频数分布情况见图1~2。由图1可直观看出, 身高的频数分布特征为: 所有数据分布在155~182之间; 数据主要集中在164~173之间, 共有73人, 占总人数的60.8%; 各组段的频数基本以168.5为中心呈对称分布。因此, 可认为身高近似服从正态分布。而体重的频数最多组段58~不在所有组段的中间位置, 各组段的频数以61为中心呈不对称分布(图2), 故可认为体重呈偏态分布。图1 120名应征男性青年身高的频数分布图表2给出了资料分布的数字特征: 均数(x)、 标准差(s)、 中位数(Md)、 四分位数间距(QR)和全距(R)。为了进一步说明各变量是否服从正态分布, 表2也同时给出了偏度系数 由表2可见, 身高的|ug1|和|ug2|均小于1.65, 故可认为身高服从正态分布(矩法正态性检验), 此结论与上述的直观结果相同, 也与图3的图示法结论相同(散点几乎都在一条直线上)。同理, 体重的|ug1|和|ug2|均大于1.65, 故可认为体重不服从正态分布, 此结论亦与上述的直观结果相同, 显然与图4的图示法结论也相同(散点不在一条直线上)。
由于身高近似服从正态分布, 且是大样本数据, 故可用样本均数168.84 cm代表身高的平均水平, 用样本标准差5.19 cm代表身高的个体差异, 用x±1.96 s来描述身高的95%散布范围, 即168.84±1.96×5.19=158.67~179.01 cm。由于体重不服从正态分布, 用中位数58.00 kg代表体重的平均水平, 用四分位数间距8.75 kg代表体重的个体差异, 用百分位数P2.5~P97.5描述体质量的95%参考值范围, 即49.03~80.77 kg。
3.2 参数的点估计与区间估计 身高的均数: =X=168.84 cm, SX=0.47 cm, 95% CI=167.90~169.78 cm 。体重的均数: =X=57.67 kg, SX=0.63 kg, 95%CI=56.44~58.90 cm。体质瘦弱(体重≤50 kg )检出率: =p=17/120=14.17%, SP=3.18%, 95%CI=7.93%~10.41% 。身高与体重的相关系数: =r=0.4040, Sr=0.0842, 95%CI=0.2423~0.5435。本例n=120, 属于大样本数据, 由样本均数分布规律可知, 虽然体重不是正态分布, 但在大样本时, 其样本均数近似服从正态分布, 故仍可用正态分布法进行总体均数的点估计与区间估计。相关系数也不服从正态分布, 故在计算ρ的95%CI时要进行反双曲正切函数转换。
3.3 假设检验 根据历史资料, 已知10年前该地健康青年男子身高均数为166.50 cm, 体重均数为55.20 kg, 可通过假设检验回答: 本次调查结果所代表的该地健康青年男子的身高总体均数、 体重的总体均数、 是否比10年前提高了。
本例属于大样本资料, 可用样本标准差作为总体标准差的估计值, 即身高标准差的估计值=S=5.19, 体重标准差的估计值=S=6.89, 分别进行单样本u检验: 身高: u=4.98, P<0.01。体重: u=3.92, P<0.01。所以, 根据本次调查结果, 该地健康青年男子的身高和体重都比10年前有所增长。
同理, 还可以对体质瘦弱检出率、 身高与体重的相关系数等作假设检验。