人类基因组与生物医学工程学
未知 2007-05-08
关键词:生物医学
21世纪科学技术的特征之一是多学科综合和跨学科交叉,其典型的实例是人类基因组计划的被执行和提前完成,这对生物医学工程学的发展将会产生深远的影响,因为生物医学工程学包含了上述诸多特征。在今天,信息技术深刻地改变着生物科学乃至医学的面貌,Moore’s定律正有效地影响着生命科学变革的进程。人类基因组计划的国际合作和国家级研究机构和民间商业公司既合作又竞争的机制改变着传统科研的单一模式,充分体现了21世纪科学技术迅猛发展的多学科交叉的特点,其中包括科研与应用既分工又紧密结合的特征。
基因亦称遗传因子,它是决定遗传性状的因子,早在孟德尔时代的定律中就把它作为基本概念推断相应的各个遗传性状的单位。1909年丹麦学者W.L.Johannsen建议将它称为基因(Gene),它通过自我增殖及通过细胞总线世代相传。各个基因虽然是相互独立的单位,但在物理上并不独立存在,在细胞分裂增殖间期内出现的染色体上各自占有固定的位置,并以线性顺序排列的方式形成稳定的长链结构,可受环境因素的影响发生突变,并在以后的世代中变异的基因就会传递下去。
基因的概念模型经历了提出、放弃、修改和精炼等漫长的历程,使基因学取得巨大进展,但在很大程度上还是基于遗传研究为主。每一个新模型的提出都带来一系列问题,随后对基因的本质又产生新的和比较好的理解。1986年美国科学家和人类遗传学家Roderick.T和Mckusick提出基因组学(Genomics)名称,这是指一个物种的全部遗传基因的总和。
自从1953年J.D.Watson和F.H.Crick提出DNA双螺旋结构模型以后,在较长时期内由于找不到分别降解腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)等四种脱氧核糖核酸的专一酶而使DNA测序无法开展,直到1977年英国Fred Sanger和美国的Alan Maxam及Walter Gilbert两个研究小组在差不多时间内发展了不同的DNA测序方法,使基因研究工作推向前进。在最初阶段,研究者都是从具体目标生物体基因组中分离和研究相关基因。1986年诺贝尔奖获得者R.Dullbecco在Scieme上提出有必要对人类基因组进行全面测序,不能满足于零打碎敲地个别研究目标基因。
在经历了一场大争论之后,在1988年,美国技术评估局(OTA)应美国能源和贸易住房委员会的要求开展了关于基因组计划的可行性研究。OTA的研究报告把开展基因组研究时的数据管理列为执行基因组计划的首要任务,并提出几个与之相关的目标:(1)创建、维护和加强生物数据库,其中包含DNA序列数据、DNA标记和基因位点,标识基因以及其它有关的数据。(2)绘制由DNA标记组成的人类染 色体图谱,这将使科学家可以迅速地确定基因的位置。(3)创建研究材料的数据库,其中包括DNA片段顺序集,在人类染色体上完整地表达DNA。(4)发展其他生物体,即模式生物的类似资源,以便于生物医学研究和其他可能的研究。(5)确定人类基因组和其他生物有机体大片段的DNA序列。(6)要面对许多支持基因组研究机构参与带来很多管理上的复杂性,要解决好许多涉及资源分配和共享的问题。
1988年美国国家科学院十分明确的提出,人类基因组研究的许多代价都与生物数据的独特管理有关。因为有大量数据要从定序和测绘工作产生出来,所以要有效地集中、存储、分析和提供,如果象目前全球范围内一般研究单位那种常规方式处理数据,那么人类基因组计划是没有什么使用价值的。因此需要数百万美元创建新的基因图谱和序列数据库,尤其强调要设计成满足基因研究的需要。
这样,在美国能源部(DOE)和美国人类基因组研究中心(NCHGR)支持人类基因组计划正式实施以前,来自美国高层的咨询委员会的明确建议,为合适的数据管理和数据分析策略对后来人类基因组计划的成功执行起着十分关键的作用。这些明显的建议,使许多投资机构调拨重要资源,为创建、运行和维护相应的系统软件和设备奠定了基础。
1990年10月美国能源部(DOE)与美国卫生研究院(NIH)共同启动人类基因组计划,原定投入30亿美元,15年完成,估计可测定基因5万到10万个。后来,英、日、法、德、中等国相继参加这一史无前例的获取人类生命基本数据的宏伟工程。
1998年5月一批多国科学家在马里兰州罗克维尔成立了私营塞莱拉基因组技术(Celera Genomics)公司,董事长克莱格·文特尔宣称用3亿美元和一台超级计算机在3年内用“霰段法的测序策略”完成人类基因组测序。这是史无前例地由美国私营公司向美国国家科研机构公开的竞争和挑战。正由于这种既竞争又合作的机制,使原订2005年完成的人类基因组的测序和分析计划进度一再提前,总的方面得益于世界上1000多名科学家的全心投入和通力合作,以及符合Moore定律的大规模基因测序技术的不断完善,并降低了成本,这与以美国Celera公司为首的私营公司的参与挑战直接有关。这确实是一种在市场经济条件下合作与竞争机制的典范。
1998年10月美国人类基因组研究所在“Science”杂志上发表声明说,人类基因组计划的全部基因测序工作将提前到2003年完成。
1999年3月英国韦尔科姆基金会宣布,由于科学家加快工作节奏,人类基因组工作草图将提前到2000年完成。
2000年4月美国Celera公司宣布破译出一名实验者的完整遗传密码,但不少欧美科学家对此表示怀疑,认为该公司“未提供有关基因序列的长度和完整的可靠数据”是疑点所在。不过,同年6月该公司后来接着宣布已将人类23对染色体上35亿个碱基对按照自然顺序排列出来,并在该公司号称“全球第三”的超级计算机上进行了480亿亿次计算。美国国家卫生研究院院长认为:“数据是正确和完整的”。
2000年6月26日,多国合作的人类基因组计划的官方机构和私营Celera公司共同宣布人类基因组工作草图基本绘制完成,测定出人类90%以上的DNA碱基序列,终于提前完成了划时代的测定基因组的宏伟工程。
1 基因组学
自从1924年提出基因组的概念用来描述生物染色体上的全部基因之后,科学家经历了漫长岁月对基因进行了个别研究,直到1986年才提出基因组学的系统概念,这涉及包含所有基因的基因组作图、核苷酸序列分析、基因定位和功能分析,其中基因组作图由遗传图谱、物理图谱和序列图谱组成。人类基因组计划的核心就在于获得23对染色体完整的DNA序列图。
前已述及,两个性质完全不同的研究组织使用不同的测序策略,在既合作又竞争的条件下争先恐后地很好完成了人类基因组的测序计划,他们现在都达到了预定目标,而且大大提前了执行时间表,使原定15年的测序计划竟提前了5年完成。以美国政府资助为首的研究计划是建立在作图产生人类基因组工作草图的策略,而私营公司Celera却采用完全不同的做法,他们把完整基因组先打碎,称为霰段法(Shotgun),然后测定人类基因组序列。这样一来,通过这二种不同的测序方法获得的序列数据大大提高了数据的有效率,并减轻了整个科学界解释基因数据的难度。最终绘制的三种图谱使人类基因组序列能够用作“工具”开展生命科学和医学的深入研究,这是具有划时代意义的。
1.1 人类基因组测序策略 前已述及,由美国政府资助,后来由多国科学家参加的测序计划是采用标记的物理图谱中含有大量人类DNA大片段的作图策略,并利用了局部的细菌人工染色体(BACs)。在理论上说,这种测序策略是先复制人类基因组序列,因此是在不断克隆基础上完成的,每次获得最短的一段BAC,它具有最少的重叠部分,并且使处在整个基因组中的这段长度展直,再粘贴起来,将它们绘制到基因组的适当区域。由于染色体不能直接用来测序,故第一步必须将整个基因组序列进行分解,使之成为容易处理的小结构,根据所使用的标记和方法不同,绘成上述三张图,虽然在工作草图上会有某些空白区域和一些不明确的部分,但它在探索生命奥秘和确定与疾病有关的基因等方面将是非常有用的。
Celera公司的理想策略是为了深入开展作图阶段避免受到次级克隆人类基因组产生随机片段的影响,以及在长度不同的片段库中,两种片段的测序结果便于整理,对于保存时间和一开始的研究计划,Celera方法使组装过程相当独立,不受算法和计算机时间的影响。Celera公司的霰段法是一个高度应用计算机的方法,它是先把基因组随机地分成已知长度的片段(2000个碱基对、1万个碱基对和5万个碱基对),然后用线性排序算法将这些片段连接成大片 段,并确定它们在人类基因组上的正确位置。
进一步比较两种测序策略,由美国等国家出资的测序工作,工作人员在一开始要把较多的时间和精力放在克隆和绘制草图上面,而Celera公司的方法在后期则需要做大量的计算机工作。为了更好地达到他们各自的研究计划,理想的策略应该发展混合策略,其中HGP需要人为地选择更多的克隆,Celera公司使需要使用BAC图谱和由HGP产生的序列。两者的测序工艺流程图如图1所示。
1.2 染色体基因分区 人类基因组是由许多序列的特性构成的复杂体,例如,高GC区和低GC区的内容、编码序列、调控因子和其他多种无编码的功能因子、基因族、许多不同类型的重复序列和重复族等,这些序列的差异和分布能够阐明基因组的进化。人类基因序列的最初分析表明,在这些特性密度引人注意的范围内,它们的组织结构对机制研究提供了新的思路,产生当前基因材料。