马尔可夫模型下英语口语表达的统计分析
姚艳梅 2012-12-19
一、引言 从国内英语口语研究方面的文献来看,该研究已经从定性研究逐渐集合多学科,借助于数据统计分析,转向定量的研究。国内近年的研究主要有:张文忠,吴旭东在文献《第二语言口语流利性发展定量研究》一文中对第二语言口语流利性发展进行了实证性定量研究,首先确定了口语流利性的具体测定指标;然后从定量的角度对第二语言口语流利性的发展进行了描述。从测试的统计分析结果来看,受试者在经过一段时间的基础训练后,英语口语的流利性得以提高,准确性并无改变,学习者在口语流利性的发展趋势上呈现出个体差异,[1]此研究没有对口语的准确性给出定量的分析,使得口语表达能力难以给出综合评价;谭晓晨,董荣月在《任务类型和语言水平对英语专业大学生口语准确性和复杂性的影响》一文中,就使用语料库的方法,探索不同的口语产出任务和语言水平对英语学习者口语表达准确性和复杂性的影响,[2]对口语表达的准确性问题进行了一些有益的探索,但主要是采用定性的分析方法,而且缺乏数据的支撑 ,使得研究结果缺乏深度和精确度。何莲珍,王敏在《任务复杂度、任务难度及语言碎片对中国学生语言表达准确度的影响》一文中从语言学习的信息处理模式入手,采用试验的方法具体分析了任务难度、任务复杂度及语言水平三个变量之间的相互关系,也指出了影响英语口语交流的流利性和准确性的具体因素。[3]该文献虽然进行了数学建模,给出了定量的分析,但定量分析过于简单粗糙,不能有效的说明问题。西方国家的研究最有影响的应属口语能力访谈(Oral Proficiency Interview),从语法、语篇和语用三个方面衡量,并且制定了0至5的十个档次标准,最高是达到本族受教育者的水平,最基本的准确是结构正确(Brown,1994),[4]Stern(1983)在语言能力的评述中做了理论和实践的解释,着重提出中介语研究的特殊性,不能完全用目标语的标准判断。从近三十年来国外的研究来看,学者们采用了许多指标对流利性的不同侧面进行测定,这些指标可以归纳为两类:与流畅程度有关的时间指标(temporal variables)和与语言表达有关的指标(performance variables)。 准确性和流利性是衡量英语口语能力的两个重要指标,在交际过程中,这两个因素会受到任务难度和复杂度的影响。口语能力的发展既受学习者目标语知识的制约,又受语言加工过程中操作因素的影响。(Foster & Skehan,1996)[5]在我国大学英语教学中语言产出的流利程度在理论研究和教学实践中得到充分重视,但学生往往强调语言的流利性,语言表达的准确性降低。要提高语言表达的准确性,首先要找出影响语言准确性的原因,并作深入分析,找出解决方法。本研究针对英语口语表达的流利性和准确性问题,提出口语表达意群的状态空间概念,即将意群单位作为状态空间的一个元素,将一个口语表达完整过程按照意群划分为若干状态空间;基于意群状态空间的概念,采用随机统计分析的方法,将口语表达过程和背景音乐两个相互影响的因素置入两个相互嵌入的半马尔科夫过程模型(是研究随机事件变化趋势的方法);[6]应用该模型进行口语测试的实验,从而获取提高英语口语流利性和准确性的有效训练方法。 二、口语指标的统计建模 英语口语的表述,即从大脑中所记忆的英语词语的数据库里,在英语语法、惯用法等条件下的约束下,搜索合适的词组单元,按照多层次逻辑进行排序,将作者的思想用语言文字表达出来。 即: 对于英语是外语,而并非第二语言的国家来说,要提高口语表达的准确性和流利性,必须先掌握好英语一些基本知识和表达技巧。英语学习者首先要掌握一定量的词汇及惯用表达的技巧和方法,词汇的获取是通过阅读英语文章,词组句型练习,情景模仿等环节实现的。在课堂中,学生在听取老师讲解词组、文章的过程中,为了获取有益的内容,必然要掌握理解这些新词,通过比较、强记、联想以及类比,逐渐掌握大量的词汇,即在大脑形成类似于计算机硬盘的数据库,该数据库必须包含发音的一些元素。 为了应用统计学来研究英语口语,本研究将英语单词组成的英语短语或者意群(meaning group)作为一个状态,这些意群(meaning group)集合构成一个状态空间。例如: 假设从大脑数据库中搜索的最流利准确的口语句子为: Many years ago, I went into a bookstore in London in search of some books that I wanted. 这是一个完整的句子,按照上面的结论,将以上各句安意群划分为几个状态 其中( )表示短语意群, 表示实意意群。口语表达是一个带有发音和记忆的过程,各状态之间的表现服从半马尔科夫的随机过程,与其中状态转移与记忆和停顿的回忆时间间隔有关。 为了研究该过程,本文对张文忠 吴旭东第二外语口语流利性发展定量研究中口语流利性和准确性的指标给出相应的统计模型如下:即 语速(SR):表示为一个言语样本的音节总数和产生该言语样本所需的(包括停顿在内)时间总(表示为秒)之比。通常的做法是将所得结果乘以60,表示为每分钟发出的音节数,该过程服从泊松分布。 发声时间比(PTR):表示用于发音的时间总量与用于产生该言语样本所需的时间总量之比,该比值服从负指数分布。 平均语流长度(MLR):指所有每两次达到或超过0.3秒停顿之间的语流的平均长度,表示言语的音节总数与(除首尾外)所有达到或超过0.3秒停顿的总次数之比, 分布。
发音速度(AR):指用于发出所有音节的总时间内平均每秒所发出的音节数,表示为言语样本的音节总数与用于发出这些音节所需的(除开停顿以外的)时间总量之比,该比值服从分布。 平均停顿长度(ALP):表示所有达到或超过0.3秒停顿的总量与(除首尾外的)停顿次数之比,该比值服从负指数分布。 基于以上的口语指标的统计模型,并考虑逻辑因素,该状态空间中各元素构成一个半马尔科夫的状态空间集合,作为口语表达过程,也就是将这些能记忆的单元按照逻辑和预设表达的意思重新组合的过程,因此该空间的各状态是可达的。 这些状态的实现是可能的,是因为口语表达者可以通过记忆联想来完成整个句子和意思的表达。因为不是母语,所以表达过程中,会有记忆的时间间隔,当该状态空间处于非周期、不可约的条件下,必须设置科学的测试环境和合理的准确的评价体系,使得学习者带着轻松的心情通过反复练习,才能最终达到口语表达流利和准确的目的。 为了提高英语口语表达的流利性和准确性,指导老师可以插入背景音乐,让合适的背景音乐旋律实时填充回忆时间间隔,建立背景音乐符号旋律与口语状态空间各单元之间的联系,从而增强口语表达的流利性和准确性。为了描述这两个过程的统计特性,建立双半马尔科夫。