许宝騄对概率论与数理统计的卓越贡献
佚名 2008-12-08
摘要许宝騄是中国最早在概率论与数理统计研究方面达到世界先进水平的杰出数学家。他奠定了中国概率论与数理统计学科的基础,并为之付出了毕生精力。其研究成果已成为当代概率论与数理统计理论的重要组成部分,至今“许方法”仍被认为是解决检验问题的最实用方法。
关键词许宝騄概率论数理统计假设检验多元分析
许宝騄(1910—1970年)是20世纪中最富有创造性的统计学家之一,是中国最早在概率论与数理统计研究方向达到世界先进水平的杰出数学家。他加强了强大数定律;研究了中心极限定理中误差大小的精确估计;发展了矩阵变换技巧;得到了高斯2马尔科夫(Gauss-Markov)模型中方差的最优估计;揭示了线性假设似然比检验的第一个优良性质等[ 1 ] 。其研究成果已经成为当代概率论与数理统计理论的重要组成部分,至今“许方法”仍被认为是解决检验问题的最实用方法。
少年时代的许宝騄受益于表姐夫徐传元(毕业于美国麻省理工学院)的指导。1928年,许宝騄考入燕京大学化学系,但对数学的浓厚兴趣,促使他改攻数学,并于1930年考入清华大学数学系。期间,深受熊庆来(1893—1969年) 、孙光远(1900—1979年)和杨武之(1896—1973年)的教诲。1933年,以优异成绩获得理学士学位。1936年,通过赴英庚子赔款公费留学考试,进入伦敦大学学院(University College)的高尔顿( Francis Galdon,1822—1911)实验室和统计系学习数理统计学。1938年获得哲学博士学位,两年后又获得理学博士学位[ 2 ] 。
1940年,许宝騄回到抗日烽火中的祖国,受聘为北京大学教授,在西南联合大学任教。1945年,应加州伯克利大学和哥伦比亚大学的联合邀请而前往美国。1947年10月,谢绝众多朋友的挽留,毅然回到中国,此后一直在北京大学任教。
许宝騄是中央研究院第一届当选的5名数学所院士之一。 1955年当选为中国科学院学部委员。1979年美国《数理统计学年鉴》高度评价了他对概率论与数理统计学科所做出的卓越贡献。1981年和1983年,科学出版社和德国施普林格( Sp ringer2Verlag)出版社分别出版了《许宝騄文集》和《许宝騄选集》。在美国斯坦福大学统计系走廊里至今悬挂着许宝騄的画像。
1984年,为了纪念许宝騄及推进我国统计学的发展,数学家钟开莱、郑清水、徐利治发起设立“许宝騄统计数学奖”,奖励35岁以下研究数理统计与理论统计的青年工作者。这是我国最高的数学奖项之一。
1问津概率论王国
1880年,英国学者傅兰雅( John Fryer, 1839—1928 )和中国数学家华蘅芳( 1833—1902年)合译的《决疑数学》是传入我国的第一部概率论著作。由于种种因素,该书对我国的概率论发展没有产生多大影响。辛亥革命后,微积分、近世代数、近世几何学等相继进入我国的高等教育领域,而概率论尚未进入。1915年1月创刊的中国第一份现代科学杂志《科学》曾刊出一篇文章《最小二乘式》,此为我国第一篇概率论文章。后胡明复(1891—1927年)曾撰写《几率论》、《误差论》等一系列论文探讨概率统计的哲学问题[ 3 ] 。由于受中国传统数学思想的影响,加之近代数学基础薄弱,随机数学在我国发展甚是缓慢。直到20世纪30年代,我国数学家褚一飞、刘炳震、许宝騄、钟开莱等才陆续发表概率论与数理统计的研究论文,拉开了中国对概率论与数理统计研究的序幕。
许宝騄痛感中国数学之落后,怀着满腔的报国热情,决心把自己的事业立足于祖国。 由于概率论与数理统计在中国几乎是空白的学科领域,于是,许宝騄以惊人毅力和无私奉献精神为其奠定了基础,并为之振兴付出了毕生精力。
在实际工作及理论问题中,概率接近于1或0的随机事件具有重要意义。概率论的一个基本问题就是探索概率接近于1的规律,特别是大量独立或弱相依因素累积结果所发生的规律。大数定律就是研究这种规律的命题之一。许宝騄对大数定律进行了深入探讨。
强大数定律和弱大数定律取决于收敛的类型。第一个弱大数定律由雅可布·伯努利(Jacob Bernoulli, 1654—1705 ) 提出, 刻画了大量经验观测中呈现的稳定性。后泊松( Siméon Denis Poisson, 1781—1840)又提出了一个条件更宽的陈述,即泊松大数定律。
切比雪夫( P. L. Chebyshev, 1821—1894)第一次严格地证明了伯努利大数定律,并把结果推广到泊松大数定律。1866年,切比雪夫给出著名的切比雪夫不等式,并由此导出切比雪夫大数定律。
第一个强大数定律由法国数学家博雷尔( Email Borel, 1871—1956)在1909年对伯努利试验场合建立。他证得若试验次数无限增加时,频率将趋于概率。博雷尔的工作激起了数学家沿这一崭新方向的一系列探索,其中尤以柯尔莫戈罗夫(A. H. Kolmogorov, 1903—1987)的研究最为卓著。他在1926年推导了弱大数定律成立的充分必要条件,后又对博雷尔提出的强大数定律给出了一般结果。
许宝騄进一步加强了强大数定律的结论。其结果为:设X1 , X2 , ⋯, Xn , ⋯是独立同分布均值为零、方差有限的随机变量序列,任给ε> 0,有Σ∞n =1P 1n| X1 + X2 + ⋯ Xn | >ε < ∞证明是经过一个卷积的富立叶逆转,把问题转化为含有特征函数某个积分的分片估计,这需要具有相当深厚的数学功底和敏锐的数学眼光才能完成。由于推证较复杂,尽管已经得出关于矩的充要条件,但在刊出时删去了必要性的证明[ 4 ] 。
概率论中的极限定理研究的是随机变量序列的某种收敛性,对随机变量收敛性的不同定义将导致不同的极限定理。许宝騄在“依分布收敛”、“依概率收敛”、“r2阶收敛”和“依概率1收敛”的基础上,创造性地提出“完全收敛性”概念,开辟了概率论极限理论研究的新局面。直到今天,对完全收敛性的讨论仍是一个有意义的课题,这就足以表明该文的开创性价值。正如许宝騄所说:“一篇论文不能因为获得发表就有了价值。其真正价值要看发表后被引用的状况来评价。”[ 1 ] 许宝騄对中心极限定理也进行了较为深入的研究。“中心极限定理”这个术语是由波利亚(G. Polya, 1887—1985) 1920年引入的。 该定理断言在适当条件下,大量独立随机变量和的概率分布近似于正态分布。在长达两个世纪的时间内极限定理成了概率论的中心课题。
1733年,棣莫弗(A. De Moivre, 1667—1754)由二项分布的渐进分布推导出正态分布。较一般的极限定理由拉普拉斯( Pierre2Simon Marquis de Lap lace, 1749—1827)给出,但其证明不完善。
误差分析是概率论的生长点之一。如果把随机变量总和中的每项看作是小的“基本误差”,那么中心极限定理就为观察误差中正态分布的发生给出一个解释。19世纪初高斯(C. F. Gauss, 1777—1855)在研究测量误差时引进了正态分布,并发展了具有广泛应用的最小二乘法。
在许多数学家为给出中心极限定理严格证明所做的努力均告失败后,切比雪夫使用矩方法的尝试相当令人鼓舞。马尔科夫(A. A. Markov, 1856—1922)于1887年第一个用矩方法给出了中心极限定理的严格证明。切比雪夫的另一个弟子李雅普诺夫(A. M. Lyapunov, 1857—1918)则从一个全新角度去考察中心极限定理,引入特征函数这一有力工具,避免了矩方法所要求的高阶矩存在的苛刻条件,在1901年给出了定理的完善证明,其证明方法与现在素数理论中的方法相类似。特征函数实现了数学方法的革命,为极限定理的进一步精确化提供了条件。
一个从理论和应用上都应当关心的问题是,仅知道某个概率分布渐近正态分布是不够的,还必须知道换成正态分布后误差有多大。李雅普诺夫给出这个误差的一个上限。瑞典数学家克拉美(H. Cramér, 1893—1985)发现李雅普诺夫所给余数的估计在风险问题中是远远不够的,并于1928年改进了结果。1941年,贝莱(A. C. Berry)再次改进了李雅普诺夫的结果。
许宝騄有一本翻破了的克拉美概率著作,书上几乎写满了批注。他认为该书包含了所有概率论的基础。1945年,许宝騄改进了克拉美定理和贝莱定理,并给出克拉美定理的一个初等证明[ 5 ] 。他以特征函数为工具,通过12个引理,给出了上述定理的证明。但影响更深远的结果是他将相应的样本均值代之以样本方差。许宝騄说:“关于均值的渐近分布,已知结果如此之多。考尼斯(Cornish)和费希尔(R. A.Fisher, 1890—1962)通过半不变量获得了逐步近似于任何随机变量分布的各项。若把考尼斯和费希尔的形式结果转化为一条渐近展开的数学定理,它能给出剩余项大小的阶。在本文中,样本方差就做到了这一步。”[ 5 ]
这里许宝騄第一个讨论了样本方差的渐近展开,给出余项阶的估计。他直接引进了一个新维数,用特征函数来近似随机向量的分布,其难点是用特征函数来近似两个高度相关的随机变量的分布。他对特征函数的应用已经达到炉火纯青的境界,在不少论文中对这一技巧信手拈来,应用自如。
许宝騄所采用的方法具有普遍意义,还可以用于解决样本高阶中心矩、样本相关系数及样本统计量的类似问题。他的这一工作在20世纪70年代以后引起了进一步的研究。此后,许宝騄开始研究费勒(W. Feller, 1906—1970)对中心极限定理一般形式的充要条件。1947年5月,他得到每行独立的无限小随机变量三角阵列的行和,依分布收敛于一给定的无穷可分律的充要条件。当时一些著名的概率专家,如柯尔莫戈罗夫、辛钦(A.Ya. Khintchine, 1894—1959) 、格涅坚科(B. V. Gnedenko, 1912—1995) 、莱维( Paul Lévy,1886—1971)和费勒等,都在寻找这一答案,所以许宝騄在给钟开莱的信中说,担心正在进行的工作会和别人相重复。
许宝騄的条件与格涅坚科的不同,后者的“两个尾巴”是并在一起的,而许宝騄则利用核( sint / t) 3 直接证明。但得知格涅坚科的研究成果已经发表时,许宝騄立即承认了其优先权[ 6 ] 。因此,在格涅坚科和柯尔莫戈罗夫合著的相关专著英译本再版时,添加了许宝騄的这一论文作为附录。
20世纪50年代中期,许宝騄对马尔科夫过程产生了兴趣,他用分析的方法讨论了关于转移概率函数的可微性。这一工作暗示了分析结构和概率结构的内在联系,为进一步研究奠定了基础。
2涉足统计推断领域
贝叶斯( T. Bayes, 1702—1761)的论文《论机会学说问题的求解》可看作最早的一种统计推断程序。拉普拉斯和高斯等利用贝叶斯公式估计参数的研究,促使统计学摆脱观测数据的单纯描述而向强调推断的阶段过渡。
19世纪末,皮尔逊(K. Pearson, 1857—1936) 明确指出,统计学不是研究样本本身而是要根据样本对总体进行推断,并引进一个分布族,包含正态分布及现在已知的一些重要非正态分布,还提出矩估计法,用来估计分布族中的参数[ 7 ] 。皮尔逊所提出的检验拟合优度统计量,为大样本统计的先驱性工作。戈塞特(W. S. Gosset, 1876—1937) 1908年导出的t分布,则开了小样本理论的先河。小样本理论强调样本必须从总体中随机抽取,从而使统计学研究对象从群体现象转变为随机现象。
20世纪20年代费希尔对现代数理统计学的形成和发展做出了卓越贡献。他发展了正态总体下种种统计量的抽样分布理论,建立了以最大似然估计为中心的点估计理论,创立了实验设计,并发展了相应的数据分析方法———方差分析。
1911年,皮尔逊应聘为伦敦大学学院优生学教授,并任生物统计系主任,而费希尔自1933年起任伦敦大学学院教授。他们共同建立和领导了一个有世界影响的数理统计学派,使伦敦大学学院的高尔顿实验室和统计系成为世界数理统计学的研究中心。
1936年许宝騄来到高尔顿实验室和统计系学习时,小皮尔逊( E. S. Person, 1895—1980)刚继任父亲的领导工作,任统计系主任;费希尔任高尔顿实验室主任;现代统计学家奈曼(J. Neyman, 1894—1981)任统计系教授;一些著名学者也不断来访,如美国的多元分析专家郝太林(H. Hotelling, 1895—1973) 、频率曲线专家克莱格(C. C. Craig)和概率专家费勒等。频频接触这些“世界级”人物,其发现一般原理、发现科学实质的深邃思想,其才气横溢、思如泉涌的大家风范,其刻苦钻研、锲而不舍的科学精神,都给天资聪慧的许宝騄留下了深刻印象。这对其概率统计思想的形成和发展产生了很大影响,他一生的科学贡献与这段经历是密切相关的。
在奈曼.皮尔逊的假设检验理论建立之初,将这一方法应用于线性模型的线性假设检验问题是一个很有意义的研究方向。费希尔对线性模型的线性假设发展了F检验(起初他称之为Z检验,其学生改进为F检验,用Fisher的第一个字母命名) ,但这种检验有何优越性或是否存在比它更优越的检验,尚需进一步探讨。奈曼2皮尔逊理论提供了以比较功效函数为基础的方法,涉及到很复杂的精细分析问题,在当时的统计队伍中,具备这样数学素质的为数甚少,许宝騄正是其中的突出者。他敏锐地意识到该课题的重要性,并随之进行了精心研究,发表了一系列相关论文,取得了突破性进展,从而在国际数理统计界争得一席之地。
28岁的许宝騄在奈曼和皮尔逊《统计研究报告》的第二卷发表了关于数理统计学的第一篇论文《Student t分布理论用于两样本问题》,研究了所谓Behrens2Fisher问题。[ 8 ]他创造性地引进统计量u =(X - Y) 2(A1 S21 +A2 S22 )
其中A1 > 0, A2 > 0为常数,来讨论以| u | > c为否定域的检验。许宝騄通过把u的密度函数展开成幂级数,研究了否定域| u | > c的势函数对参数的依赖关系。其主要内容是计算上述U检验的功效函数,并研究该检验在种种情况下的表现[ 9 ] 。 这是一个精确的(不是渐进的)分析,当代统计学家谢非(H. Scheffe)称之为“数学严密性的范本”。据许宝騄的研究结果所给出的方法后被称为“许方法”。
1941年,许宝騄首次证明了方差分析中的F检验在功效函数观点下的优越性。方差分析中任一个效应有无的检验,都可以化为典则形式之下的假设。他证得若假设水平α的检验不是F检验,其功效函数在任一球面上保持常数,则此检验的功效必小于水平α的F检验的功效[ 10 ] 。这是一元线性假设似然比检验的第一个优良性质,其本质上是对任何特定多于一个参数值假设的第一个非局部的优良性质。许宝騄考察了高斯2马尔科夫模型中方差的最优估计问题,得到了样本方差为总体方差的最优二次无偏估计的充要条件。后来的研究表明,许宝騄的结果是近年来研究方差分量模型和方差最优二次估计的起点。
许宝騄证明了似然比检验在所有功效函数仅依赖于一个非中心参数的所有检验中是一致最强的。这个条件等价于势函数在某一类自然变换下的不变性,由此开创了假设检验的两个发展方向: (1)将所得形式推广到多元问题(郝太林的T2及多元相关系数) ; (2)提供了获得所有相似检验的新方法。
正是在许宝騄的建议下,其学生席玛卡(J. B. Simaika)和莱曼( E. L. Lehmann)将这个方法用于其他问题,后莱曼和谢飞形成了完备性的概念。
3推进多元分析发展
皮尔逊的数理统计学建立在自然总体的“大样本”基础上,而费希尔则着重处理受控实验中“小样本”的统计分析。后者在数学上占有优势,频频对前者发起攻击,尖锐地批评皮尔逊所提出的x2 检验。
奈曼和小皮尔逊在1933年发表了关于假设检验的论文,把检验问题作为一个数学最优化问题来处理,发展了费希尔的研究工作。由于费希尔对皮尔逊有成见,因而对奈曼和小皮尔逊的研究也不以为然,甚至称其编辑的《统计学研究通报》是“一堆破烂货”。由于和费希尔的矛盾,奈曼感到在英国难以发展,于1938年4月应聘为美国加州伯克利大学数学系教授,并筹建了统计实验室。
加州伯克利大学统计实验室在二战后逐步取代了伦敦大学学院的统计系地位,成为世界数理统计学的中心。相比之下,当时苏联在概率论领域虽领先于世界,但在数理统计领域远远落后于美国。在20世纪50年代大力倡导“学习苏联”时期,中国统计学也长时期得不到发展。
奈曼犹如伯乐,慧眼识俊才。他非常器重许宝騄,认为许宝騄是新一代数理统计学家中的佼佼者,一度选定其为接班人。1945年,奈曼邀请许宝騄参加了第一届伯克利概率统计讨论会,并聘请他为伯克利统计实验室教师。校方仅聘许宝騄为讲师,奈曼为此大声疾呼,表示了强烈不满。1946年秋,许宝騄开始在教堂山(Chapel Hill)教学,奈曼还曾去看过他。当许宝騄回国时,奈曼一再挽留,想把他争回自己的麾下。回国后,许宝騄也与奈曼保持了多年的联系。许宝騄对科学所做的贡献以及孜孜以求的好学精神,是与奈曼的教诲和影响分不开的。
如果个体的观测数据能表示为P维欧几里得空间的点,那么这样的数据叫做多元数据,而分析多元数据的统计方法称为多元统计分析。主要多元分析方法有:多重回归分析、判别分析、聚类分析、对应分析、典型相关分析、多元方差分析等。许宝騄在哥伦比亚大学和教堂山讲授多元统计分析,培养学生从事这一领域的研究。
自20世纪30年代起,费希尔、郝太林、许宝騄等做出了一系列奠基性的工作,使多元统计分析在理论上得到迅速发展。1938年到1945年,许宝騄所发表的相关论文一直处在多元统计分析理论的前沿。在多元分析假设检验理论中,许宝騄最先讨论了优良性,是奈曼-皮尔逊的假设检验理论在多元分析中应用的先导。他推进了矩阵论在数理统计理论中的应用。许宝騄把矩阵论中处理问题的方法引进了数理统计的研究,实质上这是一个长方阵在某一变换群下的标准型。有了线性模型的法式,使估计和假设检验问题变得十分简明。
费希尔创立的“n维几何”方法,使数学家们获得了一些重要统计量的精确分布。典型例子是1928年维夏特(J. W ishart)导出了任意维正态样本全体二阶矩的联合分布———维夏特分布。
不少学者给出维夏特分布的不同证明。1939年,许宝騄利用数学归纳法推导出维夏特分布。他假定对n - 1, p - 1成立来推导对n, p的密度函数。除了密度函数中的矩阵外,还需要一个( p - 1)维的正态向量和一个n维的正态变量,在证明过程中所需的分析推导仅仅是n维向量模的平方是x2n 分布[ 11 ] 。专家们一致认为许宝騄的推导方法是最优美的一个。
文中许宝騄的另一个杰作就是得到了现今所称的许氏公式:当n≥p≥1时,有
∫⋯∫f ( x′x) dxn ×p=πnp2 -p4 ( p - 1)Π p- 1j=OΓ(n - j2) ∫A >0⋯∫| A |n - p- 12 f (A ) dA
该公式是处理20世纪80年代所形成的椭球等高分布统计量的有力工具。
多元分析中一个基本分布是关于随机正定阵相对特征根的分布。线性模型中线性假设的检验问题,都与这些特征根有关。若正定随机矩阵A 和B 相互独立,各自遵从维夏特分布W (m, Σp ×p) 和W ( n, Σ) ,且m ≥ p, n ≥ p,θ1 ≥⋯≥θp ≥ 0表示| A - θ(A +B ) | = 0
的p个根,寻求θ1 , ⋯,θp 的联合密度是一个重要研究课题。在20世纪30年代末,许宝騄和一些著名统计学家,都对其进行了探讨。在众多方法中,许宝騄的方法严密而清晰,他以矩阵微分为工具,计算了一些复杂变换的雅可比行列式,而导出相应的分布[ 12 ] 。
这个方法的难点是计算雅可比行列式,许宝騄在文章中给出了任意阶的雅可比行列式结果,并证明了3阶行列式情形。其学生安德逊( T. W. Anderson)详细介绍了这一工作,认为某些雅可比行列式的计算是许宝騄的杰作。
许宝騄把数学家分成三流。第一流的数学家是天才, 他们能开创新的领域,如柯尔莫哥洛夫、诺依曼(John von Neumann, 1903—1957) 、维纳(NorbertWiener, 1894—1964)等。第二流数学家是靠刻苦学习而成功的。他们认真消化整理前人的东西,在此基础上有所创造和发现,辛钦就属于这一类。第三流的数学家只是在某个问题上有所贡献,不能像第二流的那样系统工作。剩下的就是不入流的数学家了。他认为自己没有才能,所有成就完全是靠刻苦学习而获得。
“三十功名尘与土,八千里路云和月”。许宝騄对科学研究的态度和精神永远值得我们借鉴和学习。
参考文献
1 吴文俊. 世界著名数学家传记[M]. 北京:科学出版社, 1990.
2 江泽涵,段学复. 深切怀念许宝騄教授[J]. 数学的实践与认识, 1980, (3) : 1—3.
3 张奠宙. 中国近现代数学的发展[M]. 石家庄:河北科学技术出版社, 2000.
4 Pao-Lu Hsu, Robbins H. Comp lete Convergence and the Law ofLarge Number[J]. Proc. N at. Acad. Sci. U. S. A. , 1947,33: 25—31.
5 Pao-Lu Hsu. The App roximate Distribution of the Mean and Variance of a Samp le of Independent Variables [J]. Ann.M ath. S tatist, 1945, 16: 1—29.
6 钟开莱. 许宝騄在概率论方面的工作[J]. 数学的实践与认识, 1980, (3) : 12—15.
7 陈希孺. 数理统计学简史[M]. 长沙:湖南教育出版社, 2005.
8 Morris L E, Richard A O. Random Quotients and the Behrens2Fisher Problem [J]. Ann M ath S tatist, 1972, 43: 1852—1860.
9 Pao-Lu Hsu. Contributions to the Two-samp le Problem and the Theory of the“Studentps T-test[J]. S tatist. Res. M em ,1938, 2: 1—24.
10 Pao-Lu Hsu. On the Best Quadratic Estimate of the Variance[J]. S tatist. Res. M em , 1938, 2: 91—104.
11 Pao-Lu Hsu. Analysis of Variance from the Power Function Standpoint[J]. B iom etrika, 1941, 32: 62—69.
12 Pao-Lu Hsu. A New Proof of the Joint ProductMomentDistributions[J]. Proc. Cam brige Philos. Soc. , 1939, 35: 336—338.