全
基因组测序(Whole Genome Sequencing,WGS)是一种快速、低成本获取生物体全基因组的方法。基因组测序技术始于20世纪70年代初,最初是使用二维层析的方法获得DNA序列,随着测序技术的快速发展,测序通量大幅上升,测序成本大幅下降,测序技术已更新到第三代,已完成测序的物种也越来越多。1995年,第一个生命体
流感嗜血杆菌的全基因组测序完成,1996年第一个单细胞
真核生物酿酒酵母全基因组测序被解析,到2004年,人类基因计划完成了
人类基因组的初期测序,2014年全基因组测序被应用于临床用途。
全基因组测序经历了三代技术革新,分别为一代、二代、三代测序,其中二代测序和三代测序的结合已成为目前最广泛的杂交测序方法。第一代测序技术准确率高达99.99%,可靠性高;第二代测序技术保持了高准确度,大大降低了测序成本并极大地提高了测序速度;而以单分子测序技术为基础的新一代测序方式被称为第三代测序技术,与第二代测序技术相比,读长更长,后续拼接工作更为简单。
全
基因组测序技术能够全面、精确地分析基因组的
碱基序列,从而破解其所包含的信息,揭示基因组的复杂性、多样性。将全基因组重测序结果与已有参考基因组序列进行比对可获得个体或群体分子遗传和突变特征,进而加深对各种疾病发生、发展的了解,从而发现解决方法,使人类对自然界生物及自身的了解更加深入并给人类的健康带来实际利益。
历史和发展
1944年,美国细菌学家奥斯瓦尔德·艾弗里(Oswald Avery)及其同事发现从父母传给后代的
遗传物质是DNA。随后其他科学家对病毒、细菌、酵母、果蝇和线虫进行遗传分析表明,有意诱导破坏
遗传密码的突变,结合对此类突变产生的可观察
性状(表型)的分析。研究基因功能的方法。然而,此类研究只能查询
基因组中的一小部分基因。1949年,
英国分子生物学家
桑格(Sanger)测定了
胰岛素的两条肽链氨基末端序列。美国生物学家埃尔德曼(Edman)同年报道了
蛋白质的氨基端测序技术。1965年,桑格(Sanger)完成了
大肠杆菌120个核苷酸的测定。
基因组测序技术始于20世纪70年代初,最初是使用二维层析的方法获得
脱氧核糖核酸序列,随着测序技术的快速发展,测序成本大幅下降,测序通量大幅上升。上世纪70年代中期DNA测序技术开始较为成熟,
美国生物物理学家马克萨姆(Maxam)与
沃特·吉尔伯特(Gibert)报道了通过化学降解法测定DNA序列。与此同时
桑格(Sanger)和
英国生物学家(Nicklen)报道了双脱氧链终止序列测定法。上世纪80年代后期以来陆续出现了其他的一些测序方法例如有
焦磷酸测序法、连接酶测序法等。1995年,第一个生命体
流感嗜血杆菌的全基因组测序完成,其
基因组大小为183万个
核苷酸碱基对,1996年第一个单细胞
真核生物酿酒酵母全基因组测序被解析,其基因组大约有1200万个碱基对,1998年完成第一个动物一一
线虫的全基因组测序,2000年发布了第一个植物一拟南芥的全基因组序列,2000年,全基因体测序技术获《科学》期刊选为该年的年度突破;到2004年,人类基因计划完成了
人类基因组的测序(不完整版本),2014年全基因组测序被应用于临床用途。
全基因组测序技术
WGS经历了三代技术革新,以
桑格(Sanger)的双脱氧链终止法和Maxam化学降解法为基础发展而来的各中DNA测序技术被称为第一代测序技术。特点是易掌握、精确度高,缺点是操作过程复杂,耗费时长,成本高。21世纪后,随着现代
生物技术及
计算机技术的发展,在第一代测序技术的基础上不断改进,逐渐形成了以高通量测序为特点的第二代技术,一次能对几十万到几百万条
脱氧核糖核酸分子进行序列测序,使得对一个物种的
基因组或转录组测序变得方便易行。第二代测序技术保持了高准确度,大大降低了测序成本并极大地提高了测序速度。以单分子测序技术为基础的新一代测序方式被称为第三代测序技术。其技术缺陷是标记核苷酸的成本高,且测序错误率高。二代测序和三代测序的结合已成为目前最广泛的杂交测序方法。DNA测序经历了三代测序,已进入第四代测序技术。
第一代测序技术(桑格-库森法)
第一代测序技术以
英国生物化学家桑格Sanger等提出的链终止法及Maxam等提出的链降解法为标志。由于ddNTP的2’和3’位置都不含
羟基,其在
脱氧核糖核酸的合成过程中不能形成
磷酸二酯键,因此可以用来中断DNA的合成反应,在4个DNA合成反应体系中分别加入一定比例带有
放射性同位素标记的ddNTP,通过
凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列。桑格-库森法的读长较长,准确性高,但是成本高,测序通量低。第一代全
基因组测序技术通常为全基因组
鸟铳测序(Whole-genome Shotgun)和逐步
克隆测序(Clone-by-clone Shotgun)两种策略。
全基因组鸟枪测序策略是直接将全基因组
脱氧核糖核酸打成小片段进行随机测序,再根据序列间的
重叠关系进行
计算机拼接和组装成完整的基因组。其优点在于测序速度快,成本低,可在短时间内获得海量的基因组序列。而缺点在于序列的拼接组装比较困难尤其在
重复序列较多的区域难度更大;缺少
基因组物理图谱。
逐步克隆测序策略是在基于大片段基因组文库物理图谱的基础上选择最少覆盖(Minimal Tiling Path)的 BAC克隆作为种子克隆优先测序并逐步组装。其优点是以精细的物理图谱为基础,基因组序列拼接和组装结果更准确、更可靠。缺点是构建大片段基因组文库和物理图谱的技术性强,所花时间长,测序成本更高。
第二代测序(下一代测序技术)
以高通量为主要特点的第二代测序技术(又称为下一代测序技术,NextGeneration SequencingNGS) 的开发,如Roche公司的454技术、llumina公司的Solexa技术和ABI公司的
固体技术,使测序成本下降,并且大幅缩短了测序时间,把
脱氧核糖核酸测序引入到了高通量测序时代。第二代测序技术主要有3种技术平台,即
焦磷酸测序(454FLX),合成测序(Solexa)和连接法测序(SOLID)。
焦磷酸测序(454FLX)不用尺寸分离技术,而是将四个
碱基按固定顺序(如A-T-G一C)分步骤循环加入反应体系中进行酶促合成,通过测定是否发光来确定碱基连接测序。焦磷酸测序容易操作,能同时测序上百个DNA样品,属于高通量、低成本、适时、快速的测序技术,可直观地进行
单核苷酸多态性(SNP)分析,也为临床检验提供了新的分析测试工具。
合成测序(Solexa)的原理是边合成边测序。通过不同颜色的
荧光标记4种脱氧核甘酸dNTP),
脱氧核糖核酸合成时每添加1种NTP,都会发出不同的荧光,通过获取荧光信号获得DNA序列信息。这种技术成本低、测序通量高、准确性高,但是读长较短(200~500
核苷酸碱基对)。
连接法测序(
固体)的原理为连接反应的
底物是8
碱基单链荧光
探针混合物。连接反应中,这些探针按照碱基互补规则与
单链DNA模板链
联会,经过5轮测序反应后便可以得到所有的碱基序列。这种技术高通量、高准确度、易区分SNP和测序错误,但因其读长较短给从头测序拼接带来了困难。
第三代测序(单分子测序)
以单分子测序为技术特点的第三代测序又称单分子
脱氧核糖核酸测序技术,是指不需要
聚合酶链反应(PCR)过程,利用
有机高分子化合物、光学、
纳米技术等手段区分碱基信号差异以直接读取序列信息,从而实现对每一条DNA分子单独测序,第三代测序技术主要有Pacific Bioscience的SMRT技术 (PacBio) 和Oxford Nanopore Technologies公司的纳米孔单分子测序技术等技术。第三代测序技术能避免PCR偏好性导致的错误,同时提高了读长,解决了第二代测序技术读长短的缺点。但其缺点为半导体测序仪技术读长不足,SMRT技术有效反应孔数目不足,原始测序数据准确率不高等。
Pacific Bioscience SMRT技术是基于光信号的三代测序技术,可在目标
脱氧核糖核酸分子复制的过程中捕获序列信息(即边合成边测序)。PacBio的测序速度较快,但测序方法的错误率(可达到15%)远高于二代测序。
纳米孔单分子测序技术 (The Single-
分子 Nanopore DNASequencing)是利用电信号测序的技术,其原理是纳米孔内有共价结合的分子接头,当单个
碱基或DNA分子通过纳米孔通道时,会使电荷发生变化,从而短暂地影响流过纳米孔的
电流。与Pacific Bioscience SMRT技术相比纳米孔单分子测序技术处理样品较为简单,成本较低,但其碱基错误率也远高于二代测序。
数据分析
全基因组测序的数据分析流程包括
质量控制(quality control)、比对(mapping)、突变检测(callvariant)、突变注释(annotation)。
质量控制
质量控制指对测序产生的原始数据(
RAW 数据)进行去
接插件、过滤低质量reads、去冗余,得到有效数据(cean data)的过程。质量控制能除去部分测序效果较差的序列,提高后续分析的准确性。经过该步骤通常会过滤掉5%~15%低质量的序列。
全基因组重测序数据分析最关键的一步在于序列比对(mapping),将重测序所得的reads序列与已有的参考基因组序列进行相似性比较,比对过程一般按两步进行:首先归类整理reads数据或参考基因组序列,然后用适当算法比对和定位reads序列。用于序列比对的软件有很多种,如2008年推出的SeqMap、Soap、Zoom、MAQ、RMAP,2009年推出的SOAP2、SHRiMP、BOAT、BFAST、MOM、BWA、MapNext、Bowtie,2010年推出了BWA-SW等,截止2018年,只有MAQ、SHRiMP、BFAST、BWA等软件通过转换格式可以处理2个测序平台产生的数据。
突变检测
比对好的SAM文件通常会转换成BAM文件并进行去重(remove
复制),然后进行突变的检测。主流检测SNV和nDel的软件为Genome Analysis Toolkit(GATK),2014年3月,最新版的GATK(version3.1)可使全
基因组的分析时间为1天。
突变注释
每一个全基因组的样品,平均可以检测到大约三百万个突变。为了筛选致病的候选突变并用于后续
功能验证,需要通过诸如ANNOVAR等软件对其进行注释。
覆盖度
测序覆盖度:基因组被测序得到的碱基覆盖的比例;测序覆盖度是反映测序
随机性的指标之一;测序序深度与覆盖度之间的关系可以过Lander-Waterman Model(1988)来确定。当深度达到5X时,则可覆盖基因组的约99.4%以上。
全基因组测序意义
全基因组测序技术的出现对医学领域来说是一次革命性的进步。全
基因组测序技术能够全面、精确地分析基因组的碱基序列,从而破解其所包含的信息,揭示基因组的复杂性、多样性。将全基因组重测序结果与已有参考基因组序列进行比对可获得个体或群体分子遗传和突变特征,进而加深对各种疾病发生、发展的了解,从而发现解决方法。全基因组测序技术将会使人类对自然界生物及自身的了解更加深入并给人类的健康带来实际利益。
全基因组测序的应用
疾病的诊断
全基因组测序技术可以将其定位到基因序列的突变位点,进而制作相应的诊断工具,为临床治疗提供了新的思路和方法。该技术应用于临床遗传病诊断可以提高诊断率,缩短诊断流程,节省时间及降低诊疗费用。多项研究和实践已经证明,WGS技术有助于临床快速诊断疾病,帮助患者家庭避免漫长的诊断过程,从而及时为患者提供个性化的治疗方案。WGS在技术上的优势及特点,已在许多遗传病的分子诊断过程中得到了充分的体现,促进了遗传病诊疗水平的提高。
在出生缺陷防控中,基因诊断是极其重要的一个环节,WGS技术已经在许多出生缺陷及遗传综合征的临床诊断中展现出更好的诊断效率,其中,基于全
外显子测序技术的基因诊断已成功地对
新生儿糖尿病、难治性炎性肠病和进行性神经性胖骨肌萎缩症(Charcot-Marie-Tooth atrophy综合征)等疾病进行分子水平的诊断。2022年,
英国计划从明年开始对10万名新生儿的大约200种罕见遗传疾病进行基因组测序。在
美国纽约,一个类似的项目已经在进行中,该项目将从该市多样化人口的10万名婴儿中筛查更多的疾病。
相对于全外显子组测序,全基因组测序技术在神经系统遗传病的基因诊断中更为高效,可获得更高的诊断率。在一项
线粒体基因和核
基因检测均阴性的以脑病、癫痫等
神经系统异常为主要临床表现的患者
队列研究中,通过WGS技术的应用,以及个性化定制的
生物信息学分析流程、针对性的表型及功能学实验验证等,将诊断率从16.7%提高到31.4%。
肿瘤疾病的基因诊断
在
流行病学领域,全基因组测序可以对
病原体进行测序分析判断其来源及可能发生变异的频率及方向。全基因组测序技术作为综合、全面的变异检测方法,在肿瘤基础研究和临床诊断中的应用成果层出不穷。越来越多的证据显示,该技术在肿瘤精准检测方面有其独特的优势,有充分的潜力成为肿瘤研究和临床诊断更佳的选择。全基因组测序可对癌症中体
细胞突变的鉴定,为疾病的诊断与治疗提供了最直接有效的方法,通过全基因组测序,许多癌症已经被广泛研究,并取得了一系列的研究成果。例如Pleasance等在2010年首次通过全
基因组测序得到了
黑色素瘤的全基因组突变谱。该技术已有实例,2013年,好莱坞女星
安吉丽娜·朱莉因家族遗传而担心有罹患
乳腺癌的风险,进而做了
基因检测,发现其BRCA基因突变,于是先行切除了双侧乳腺。2015年,她又切除了
卵巢和输卵管,以避免患卵巢癌的风险。著名的
苹果公司创始人
史蒂夫·乔布斯先生是世界上20名对其癌症肿瘤的所有基因和正常
脱氧核糖核酸进行测序的人之一。
在个体化用药中的应用
药物
遗传学的揭示有望实现个体化用药,全基因组测序从技术上适合个体化用药研究,全基因组测序检测及分析可以帮助识别患者对某些药物的敏感性或耐受性,从而提高药物的疗效和降低不良反应的风险,因此个体化用药也是WGS技术今后临床应用的一个重要场景。WGS技术在个体化用药中的应用包括在
急性早幼粒细胞白血病患者中鉴别隐匿的
融合基因和指导治疗方案;在非瘤样病变的治疗中,用于鉴别
华法林敏感性
配子系多态性并指导用药剂量等。
商业信息
相关公司
已有许多公司尝试将全基因组测序商业化以作研究或临床用途,例如有
Illumina、Pacific Biosciences、华大基因(BGI)等公司。
相关费用
2010年代晚期全基因组测序一次约要价1000美元,许多公司正试图将成本进一步降低,2017年华大基因的全基因组测序收费已降为一人600美元,根据美国
国家卫生研究院(NIH)公布的数据,2020年,人类全基因组测序的成本已由2007年时的100万美元,降低到现在的1000美元以下。2021年,华大基因公告称,公司全资子公司中国武汉华大医学检验所中标“
四川大学华西医院十万例
罕见病患者全基因组测序计划采购项目”。该项目中标金额为人民币1348元/例。
伦理与道德
全
基因组测序一直面临伦理与道德上的争议,基因组测序使涉及隐私的信息提高到人体的全部遗传信息,利用目前可用的分析技术,结合检测特定的
基因型和
染色体核型,可以逆向识别个体。个人遗传信息一旦泄露,与个体的生活和工作等息息相关,使个人隐私问题更加突出。遗传信息泄露可能引起或面对在工作、保险过程的基因歧视。例如,2022年
英国一项对新生儿的全基因组测序引发了一系列伦理问题,包括谁将获得数据,以及是否会因为揭示可能永远不会导致严重疾病的基因,而引起父母不必要的担心,所以在测序数据的存储、解读和使用中,必须注意保护个人隐私和信息,包括双亲关系以及
家庭成员关系的隐私等。相关测序数据要以临床检测为目的,患儿及其家属要有充分的知情权。
基因测序领域中争议和隐患最大的是直接售予消费者的商业
基因检测(DTCgt),其面临的问题涉及个人隐私、
数据安全、信息披露等,集中反映在
性同意法律和伦理均要求接受检测者在检测前的知情同意过程中被充分告知,特别是不利和风险。商业检测DTCgt推广的广告性质,信息和内容更多地强调甚至夸大误导基因检测的功能,给民众很多误导。一些DTCgt机构通过互联网或其他途径,在没有医生的咨询下,为消费者提供多种遗传图谱的商业检测,存在较大隐患。例如有,检测前的知情同意履行存在严重瑕,对
基因检测技术上和结果认知和解释方面的限制和缺陷淡化,对目前临床诊疗发展的有限性和其有所不能告知不充分等问题。
人类全基因组测序
对
人类基因组的研究,已经有50多年的历史。
人类基因组计划于1985年提出,预估总预算30亿美元,计划周期为15年,即于2005年完成。1990年,号称生命科学领域的“登月计划“——人类基因组计划启动,目的是测定组成
人类染色体的30亿个
核苷酸碱基对的核苷酸序列,从而绘制人类
基因组图谱,并辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。人类全基因组测序最早被全基因组测序完成的人是美国生物学家及企业家克莱格·凡特与美国分子生物学家
詹姆斯·杜威·沃森,测序时间为2007年,沃森拥有记载着自己全部基因序列的DVD光盘,成为了世界第一份完全破译的“个人版”基因组图谱的拥有者。
2008年一名匿名的中国人,一名
尼日利亚人及
荷兰的女性遗传学家玛乔琳·克里克也分别完成了全基因组测序。截至2012年6月共有69个人接近完整的基因组序列数据向大众公开。2013年11月有一
西班牙家庭在接受
23andMe与华大基因测序后,将全家的全基因组序列以知识共享
公有领域授权条款公开,是第一个公开的家族全基因组序列数据。2022年,《科学》杂志一连上线了6篇论文,第一次公布了人类基因组的完整序列,为了解人类
脱氧核糖核酸提供了首个全面视角,促进对人类疾病的基因研究。