化学信息学
学科
化学信息学是化学领域中近几年发展起来的一个新的分支,是建立在多学科基础上的交叉学科,利用计算机技术和计算机网络技术专业,对化学信息进行表示,管理,分析,模拟和传播,以实现化学信息的提取,转化与共享,揭示化学信息的实质与内在联系,促进化学学科的知识创新。
基本简介
化学信息学是一门应用信息学方法来解决化学问题的学科。20世纪中后期,伴随着计算机技术的发展,化学家开始意识到,多年来所积累的大量信息,只有通过计算机技术才能让科学界容易获得和处理,换言之,这些信息必须通过数据库的形式存在,才能为科学界所用。这一新领 域出现以后,没有一个恰当的名称。活跃在这个领域的化学家总是说他们在“化学信息”领域工作。然而,因为这一名称难以将处理化学文献的工作和发展计算机方法来处理化学信息的研究分别开来。所以,一些化学家就称之为“计算机化学”,以强调采用计算机技术来处理化学信息工作的重要性。但是,这个名称容易与理论化学计算,即“计算化学”混淆。
1973年,由NATO高级研究所夏季学校在荷兰Noordwijkerhout举办的一次研讨班,首次将在在不同化学领域工作,但都是采用计算机方法处理化学信息,或是用计算机技术从化学数据中获取知识的科学家集中在一起。这次研讨班的名称就定为“化学信息学的计算机表征与处理”。参加这次会议的科学家主要从事化学结构数据库,计算机辅助有机合成设计,光谱信息分析和化学计量学等方面的研究,或者开发分子模拟软件。研讨班期间,这些化学家意识到,一个新的研究领域已经形成,而且,它隐含在化学各分支之间。
从那之后,应用于解决化学问题的计算机科学和信息学方法悄然进入了化学的各个领域。
而“化学信息学”这一名词的出现还是最近的事情。以下是几个最早的定义:“应用信息技术和信息处理方法已成为药物发现过程中的一个很重要的部分。化学信息学实际上是一种信息源的混合体。它可将数据转换为信息,再由信息转换为知识,从而使我们在药物先导化合物的识别和组织过程的决策变得更有效。”——Brown Medicinal, 化学,1998,33,375-384。“化学信息学——一个老问题的新名词”——M.Hane,R.Green. Chemical Biology,1999,33,375-384。“化学信息学是一个广义性的名词,它将包含化学信息的设计,制造,组织,处理,检索,分析,传播,和使用。”——G.Paris (美国化学会 1999年8月会议)。
研究内容
1、化合物登记(化合物 registration)。这包括将每一个化合物的立体化学参数,相关光谱数据(如NMR)、纯度数据(如HPLC)、各种生物活性测定数据等各种相关数据动态组合在数据库中。
2、构效关系的研究工具和技术。这包括应用各种软件建立各种构效关系模型,其中使用了各种化学计量学方法(如多元统计回归分析等)。构效关系模型就是关联用数值表征的分子结构与其生物活性间的相关性。传统的QSAR研究是通过自由能将各种独立变量联系起来,即相似性是通过简单的数值来度量的。但是,化学结构之间的相似性度量相对比较复杂,化学结构只有在一定描述的空间中才能被度量和比较。如何描述一个化学分子是相当活跃的研究领域,只有在一个正确有效的描述空间内才有可能客观度量分子之间的相似性和差异性,从而进行有目的的筛选,并得到一个理想的目标分子库。现在很多人在研究通过二维、三维甚至更高维的药效团指纹图谱来表征分子,它与传统的自由能表述完全不同,其效果更为直观,新的描述方法如特征树(feature tree)等也被广泛应用。
3、虚拟数据库组装技术(virtual database assembly)。它通过计算化学方法组合各种基元化学分子结构和片段,虚拟合成大量的候选化合物,然后在这样一个虚拟化合物库中筛选目标 药物分子。上述工作包括采用合适的描述因子和相应的算法进行计算库设计(computational library 设计)。值得指出,有效的计算库在分子设计中往往起关键作用。遗传算法已成为计算库设计的重要工具,它能对一个虚拟库中各个计算化学性质特性值进行优化,从而最优地接近目标。Crame等对库设计的背景和外延问题作了阐述,Drewry和Young对库设计的各种方法进行了全面的总结。一种基于已知活性片段(对于目标受体)的方法被应用在单体选择中。经验表明,库的设计应建立在产品空间的计算化学特性值基础上,而不是在单体空间中。这需要有效的化合物虚拟合成技术,包括:1.片段标记(fragment marking),2.合成反应模拟技术。合成化学家一般偏爱后一种,但在分子的各片段都已定义好的情况下,使用前者更加快速。杂交系统(hybrid system)也被用来进行库设计。这些方法都需要通过模型计算得到化合物的物理化学性质值。James F Blake对药物的各种性能值,如吸附性、渗透性、水溶性等预测模型进行了评述。
4.数据库挖掘技术(database mining)。这主要是从大量的候选类药分子中寻找出所需要的药物分子,一般通过亚结构(substructure)、2D或3D相似性度量、分子形状(shape)、框架(framework)、药效团等来进行搜索,或者根据受体和配体之间的三维结构进行药物三维空间筛选。挖掘技术的效果既依赖于对目标分子的认识,如分子三维结构、化学特性等;也依赖于挖掘工具,如计算速度等。从一个多维特征描述空间中选择一个子集作为代表集就是所谓分子的虚拟筛选。通过对数据集合的研究,Bayada等得出结论:Ward的二维指纹图谱对于随机选择有最大的改善;但在另一项研究中发现,分割的化学结构(partitioned chemical descriptor)描述空间适用于不同的子集筛选,解决了有关 聚类的技术。Deborah K.等使用回归分类法(recursive partition)进行药物筛选,并将其运用到14 G-protein 双受体检验中。
5、统计方法和技术。统计方法如主成分分析、因子分析等被广泛地用来进行分子描述因子(descriptor)的减维,从而可以更加简单有效地表述分子信息并降低计算的复杂程度。
6.大型数据的可视化表达。在化学信息学的研究中需要对成千上万个分子的构效关系模型进行表达,若通过图表的方式用计算机程序自动地进行数据的过滤和表达有利于分析。
学科应用
现代科学的最新发展使得各学科所面对的化学物质体系变得越来越复杂,辨识研究的任务越来越繁重,既有复杂成分定性定量分析问题,又有不确定性的化学模式识别问题;不但有大型数据库管理问题,还有数据规律的发现问题等等。化学信息学(chmoinformatics) 就是为解决化学领域中大量数据处理和信息提取任务而结合其他相关学科所形成的一门新学科。这门新学科是在化学计量学(chemometrics) 和计算化学(computational 化学) 的基础上演化和发展起来的,吸收与融合了许多学科的精华。
化学计量学的发展随着计算机技术的引进,使化学家获得大量的化学数据成为易事。例如,人们可以在对样品一无所知的情况下,从分析仪器的计算机数据采集系统获得诸如峰高、峰位、峰面积等一系列数据。然而,数据并非等同于信息,尤其是有价值的信息。因此,如何利用现代计算工具与信息处理方法快速地处理和解析化学量测数据,成为一个十分迫切的需求。在这种情况下,出现了将数学、统计学与计算机技术应用于化学化学计量学。作为在80年代蓬勃兴起的新技术,它运用数学、统计学、计算机技术等工具设计或选择化学量测的最优方法,处理与解析化学量测数据,试图最大限度地提取待测物质体系的化学相关信息。
分析化学研究方面,高鸿曾预言分析化学与统计学、数学结合的年代将会到来。作为化学量测科学,分析化学从采样、实验设计到分析信号的数据处理和解析、化学信息的提取与利用,无一不涉及到化学计量学所研究的统计与数学方法。化学计量学对现代分析化学基础理论的发展作出了重要贡献,基本形成了分析信息理论、分析采样理论、分析实验设计与优化理论、分析检测理论、分析校正理论、分析误差理论、分析仪器信号处理技术、化学数据库及专家系统技术等,极大地丰富了现代分析化学的理论与技术工具。
此外,化学计量学在工业生产中已得到广泛应用。例如,多元校正方法已经在啤酒生产和药物制造中成为常规的监控手段;在造纸、化工、食品、饮料、化妆品等行业中,也被用于过程监测(process monitoring);近来,这些方法还被用于生化发酵、半导体晶片等间歇操作生产过程的监测。到目前为止,化学计量学应用最成功的领域是:多元校正、定量构效关系的建模、化学模式识别、多元过程仿真与监测等。但是,随着其应用范围的扩大,研究对象变得越来越复杂,所要处理的数据维数越来越高,数据量也越来越庞大。例如,在药物设计领域的先导化合物虚拟筛选中,需要处理的化合物达到1040。显然,传统的化学计量学已经难以胜任药物学、生命科学、环境科学、材料科学等领域所提出的化学复杂问题计算和解析,由此迫切需要派生和发展一门包容化学计量学本身的新学科。这就是化学信息学迅速崛起的重要原因。
计算化学的发展计算化学是应化学数据定量分析的需求而产生的,它为化学信息学提供数据计算和信息解析工具。随着认识层次的深入,化学领域中的各种对象大部分可以用一定的数学模型来抽象和表征;而模型的求解需要借助于各种数学的手段来进行。因此,化学学科对科学计算的要求越来越高。例如,各种化学反应可以用一定的微分方程来建模,通过数学模型仿真其反应、传递等各种过程。但是,求解微分方程带来了更高的计算要求。通常,大量的微分方程无法通过理论推导方法求解,这就需要通过数值计算的方法来求近似解。同样,在微观世界中,随着对分子结构的认识不断深入,我们可以通过各种数学模型来模拟分子的状态,如通过薛定谔方程可以模拟电子云的运动状态;通过量子力学、分子动力学、统计力学等各种方法可以准确地完成分子的模拟;这就意味着现代化学研究中需要建立更多的模型,并需要解决更多的科学计算问题。
随着科学技术的发展,人们对客观世界的认识正在逐步加深,各研究领域中的规律性知识不断地被总结出来,从而使得各种模型的建立成为可能。科学发展到今天,人们已越来越倾向于从数学的角度来看待问题、认识问题和解决问题。因此,计算化学的问世极大地推进了化学及其各相关学科的现代发展,已经成为解决化学领域中复杂问题的技术支撑和有力工具。一般而言,计算化学需要满足两个基本要求:1.准确求解问题;2.快速求解问题。因此计算化学一直向着这两个方向在不断发展。一方面,它将多元统计分析方法(如PLS、pca、判别分析、聚类分析、因子分析、回归分析等)及人工智能方法(如模式识别、ANN、遗传算法、专家系统等)等各类计算手段包容进来,以完成对化学领域对象的准确建模任务;另一方面,它将数据库技术、快速搜索算法、并行计算技术等各种提高计算速度的方法包容 进来,完成数据库快速搜索任务,实现药物虚拟筛选等应用目标。由于在表面科学、药学和材料科学中需要对延展分子系统(extended molecular system)进行定量描述,而这一类化学体系的实验信息又很少,这就需要通过计算化学的手段来解决。通常这类科学计算的计算量非常大,以现有计算机的计算能力,按一般的算法难以快速地给出计算结果,无法实现人机交互pvm及其并行算法的引入,极大地提高了计算速度,使很多问题的计算求解成为可能。由此可见,计算化学的主要任务就是运用高性能科学计算工具,为化学领域问题求解提供途径。
发展现状
伴随着药物发现和制造技术发展而产生的化学信息学最早是由Frank Brown 用下述简洁语言定义的:综合信息资源,将数据(数据)转化为信息(information),将信息转化为知识(knowledge),并将它用于特定药物先导化合物的辨识和优化领域的一门学科。众所周知,由于组合化学的出现使得药物学发生了革命性的变化。现代药物设计可以利用计算化学的方法,通过分子建模和仿真虚拟合成各种化合物(固体 phase synthesis)。但是,通过这种方法得到的可供筛选的化合物库非常庞大,理论上可以合成的类药分子超过1040个。显然,如果去实际合成每一个药物来进行筛选是不可能的,因此必须从大量的数据中总结出规律,并利用这些规律进行虚拟的高通量筛选(HTS),以减少需要实际合成的化合物,同时尽可能地接近目标化合物。面对如此大量的数据,需要将原本独立的化学、数学及计算机等学科融合起来,构建一系列计算技术工具,以便完成从数据到信息,从信息到知识"的整个化学信息处理过程。这些技术工具不仅包括实验数据的分析处理,同时也包括分子各种性质的计算、化合物数据库的建立、分子的虚拟合成、QSAR的研究、化学结构和性质数据库的建立、基于三维结构的分子设计、统计方法的研究等。化学信息学正是在上述需求基础上发展起来的一门交叉学科。它综合了数学、化学、生物学、信息学、计算机应用、药物学等学科知识,主要研究如何适当地选取化合物库(library)的多样性(diversity)、如何表征药物分子特征、如何度量不同分子间的差异性、如何识别类药(drug like)分子、分子结构和生物性能(bioactivity)关系、如何研发相应的计算机软硬件等,这就包括了化学计量学及计算化学的研究任务和内容。
化学信息学方法与传统的化学计量学方法相比,更注重于有用信息的提取和更注重计算速度的提高。为满足信息提取的需要,它大量采用了人工智能领域和信息科学领域的先进方法和工具。例如,运用数据挖掘技术去发现大量原始数据中的隐含规则;运用特征提取技术和编码技术进行模式的表达;运用数据库技术完成大型数据的储存和搜索;运用计算机仿真技术模拟分子的合成,以及受体和配体之间的匹配等。而为满足计算速度方面的要求,它一方面采用更高性能的计算机硬件,如并行计算机等;另一方面研究设计更为高效的算法,以最大限度地利用计算机硬件所能提供的计算能力。显然,化学信息学所研究的问题已经超越了传统化学计量学所研究的范畴,现有的化学计量学方法难以解决分子设计研究领域大量出现的新问题。从这个意义上讲,化学信息学的创立和发展是化学学科拓展的历史必然。化学信息学在化学领域、化工领域、药物设计领域、材料科学领域等许多领域中都已得到广泛的应用。例如,在化工领域中,化学信息学被用来对反应条件进行优化和筛选催化剂等,这主要是通过对实验数据进行建模,然后使用该预测模型实现对实验工作的指导;在药物设计领域,主要被用来进行分子模拟、虚拟合成、构效关系分析、虚拟筛选等;在材料科学领域,化学信息学被用于分子模拟和分子设计,并在分子性能预测的基础上,从所设计的分子中筛选出进行实际合成的分子,以便得到经过性能优化的材料。
重要意义
当前课程建设的新任务
近年来国外部分大学正尝试在化学教育中系统地增加化学信息学课程。化学信息学的发展将推动传统的化学教育模式的改革。2003年德国的Johann Gasteiger出版了“Chemoinformatics A Textbook”一书,该教科书系统、全面、深入浅出地介绍了化学信息学的各个研究领域及其研究现状和今后的发展动向。在国内,中国教育部理科化学教学指导委员会已将化学信息学列入高等学校化学专业和应用化学的化学教学基本内容。目前,化学信息学作为一门新的教学课程,其课程的要求、内容、教学方式和教材等已经是课程建设的一项新任务。国外化学信息学的教学侧重于专业方向教学,交叉性强,涵盖广。而中国化学信息学的教学,由于课时的限制,其教学内容多侧重于化学语文学。这种传统的信息获取方法,已经严重阻碍了学生们的发展眼光,束缚了学生们获取新信息的手脚,不利于学生们的个性发展和长远发展,是舍本逐末的短视行为。甚至在高职院校化学专业,认为化学信息学是可有可无的课程。他们认为只要教会学生们基本的技能,让学生短期内找到工学是最重要,而个人长期的发展被严重的忽视了。这种教育思想是与高等教育的初衷格格不入的,是应该改变并及时得到修正的。
高职学生提供解决问题
化学研究中主要面对的三大研究对象是:结构确定、分子设计和合成设计。化学信息学的研究内容将主要针对化。学的三大研究对象开展相关的计算机模拟方法及其应用研究:计算机辅助结构确定、计算辅助分子设计和计算机辅助合成设计。并有其独特的解决化学问题的方法,主要可以分为三大类:基于数据、基于逻辑和基于原理。第一类主要是指建立多种数据库管理系统和数据库,利用其中的数据;第二类主要是利用已有的数据库中的数据,并在此基础上,利用归纳、推理和分类等方法将数据转化成知识,并对知识实施有效的管理,以便于知识得到广泛的应用。最终,能用于解决实际的化学问题;第三类主要是利用已有的量子化学的理论,对相关的化学问题开展研究。其中,前两类方法而言,它们注重于适用大量的化学信息(整体)的分析处理,其核心在于化学结构的分析比较、相关物化性质的分析处理的方法和应用研究。而第三类方法主要注重化合物个体的相关性质精确分析的方法及其应用研究。这三类方法的合理组合将促进化学界的研究方法和工业界的生产方式不断革新。同时它是绿色化学和绿色化工的基础,是联系化学化工为国民经济可持续性发展服务的桥梁,是实现化学创新的有效方法之一。从三类方法中可以看出,高职学生在前两方面的应用将会得到十分重要的帮助。
提高学生整合信息内容
当今时代信息具有四大特点:信息量大、延伸范围广、传播速度快、交叉性能强。这些信息的记载、组织与交流对化学学科的发展起到越来越重要的推动作用,同时也成为化学学科的一个重要组成部分。化学信息可分为两大部分,即化学物质的化学信息和媒体形式的化学信息。前者是利用科学的原理和方法通过测量得到的化学成分的相关信息,如物质的物理、化学性质,物质中各成分的定性、定量以及结构信息等。后者是化学信息的记录形式,如图书、期刊、专利等。化学信息的传播使化学工作者们共享测量的原理、方法及测量结果。学生们要想充分利用有益的测量数据和结果,必须首先学会整合信息内容,提高自己整合信息的综合能力。既不能丢掉有用信息,又不能使用虚假信息。其次,还要学会表示、管理、变换和使用化学信息。当前最先进的手段是利用计算机表示和管理化学信息,因为计算机能方便地将数据信息的数字符号保存、读入、计算和输出。同时,计算机也可以把化学信息中的结构信息用线性编码等方式表示出来。并能保证结构信息的“惟一性”和“无二义性”。化学信息学从计算机与Internet基础开始,到联机文献检索、到数据库的资源与使用、再到信息的表示方式以及小波分析等方面作了详细地介绍和阐述,已经不再是原来的狭义的信息检索等方面的内容。这门交叉性较强的学科势必能使学生具备完善的分析、处理、变换和使用信息的能力。即综合整合信息的能力。
培养学生信息素质
信息素质是一种涉及信息内容、传播、分析、信息检索以及评价各方面的综合能力。1999年6月,党中央、国务院发布《关于深化教育改革全面推进素质教育的决定》,明确指出“要让学生感受和理解知识产生和发展的过程,培养学生的科学精神和创新思维习惯,重视培养学生收集处理信息的能力,获取新知识的能力、分析和解决问题的能力”。这说明中国政府已经意识到了信息素质教育的重要性。只有提高全民尤其是大学生以科学精神为核心的信息意识和以创新思维为核心的信息能力等基本信息素质,才能把民族潜能转化为民族智能,全面提高民族的竞争力。对于高职院校学生来说,化学信息学可以提高其自觉筛选吸收信息的能力,养成创新思维习惯,自觉具有课题查新的意识,具备渴求知识的欲望,掌握必备的信息处理能力,提高在今后工作岗位上的竞争力,适应日后深造和社会终身学习的客观要求。
培养创新人格
化学信息学首先能培养学生的良好信息素质,良好的信息素质会使学生在走入社会之后具备较好的独立性、坚持性、合作性以及自信心和责任心等,而这五个要素是学生创新人格的具体体现。有了良好的独立性,学生在智力活动和实际活动中能够独立自主地发现问题和解决问题。有了良好的坚持性,学生会在创新活动中冷静面对和睿智的思考他所面临的一切困难。会在诸多困难中寻找到一丝曙光,为自己找到达到创新目标的途径和方法。化学信息学在利用计算机和网络技术的基础上,本身就特别强调广域的合作性,有了良好信息素质的学生一定不会为了独立的个性素质而舍弃合作。相反,会更乐于接触更多的人,也会把自己的想法和做法与合作者共享。良好的信息素质当然也加强了学生们的责任心和自信心。自信是成功的一半,反过来,学生掌握了更多的知识和信息之后,在广域合作或广泛获取有用信息的基础上,一定会找到解决问题的有效办法,这不仅不会消磨其克服困难的意志,反而会更加增强他的自信心和责任心,使得他在工作中表现的更加尽善尽美,创造性地完成创新任务。
参考资料

Warning: Invalid argument supplied for foreach() in /www/wwwroot/newbaike1.com/id.php on line 362
目录
概述
基本简介
研究内容
学科应用
发展现状
重要意义
参考资料