蛋白质结构是指蛋白质分子的空间结构。蛋白质是由氨基酸作为构建单元组成的大型分子化合物。蛋白质的空间结构十分复杂分子中的每个
化学键的空间构象差异可导致蛋白质结构的差异。
蛋白质结构通常通过不同的结构层次进行阐述。蛋白质的一级结构指氨基酸残基通过肽键连接的排列顺序。蛋白质的N端带有游离
氨基,C端带有游离酸基。大多数含有100—500个残基,而少数可能有几千个残基。膜岛素、
血色素等是蛋白质的一级结构,蛋白质的一级结构决定了其基本性质,并影响其二级、三级结构。二级结构指肽链通过
氢键排列形成具有周期性结构的构象,主要包括α-螺旋和B-折叠结构,以及无规卷曲结构。在二级结构中,氢键对构象的稳定起重要作用。三级结构是指
多肽链通过各种作用力进一步折叠成复杂球形结构。稳定
蛋白质三级结构的作用力包括氢键、
离子键、二硫键和范德华力等。氨基酸的R基位置对蛋白质的表面性质产生影响。四级结构是两条或多条肽链以特殊方式结合形成生物活性蛋白质的结构。每条肽链都有自己的一级、二级、三级结构。蛋白质结构的稳定性受到多种作用力的维持,包括
氢键、疏水相互作用和
静电作用。
蛋白质结构层次的差异及各种作用力的影响导致了蛋白质的多样性和生物活性,对蛋白质结构层次的理解对于揭示其功能和性质至关重要。
蛋白质的结构与功能关系得以展现在诸如肌红蛋白和
血色素等代谢过程中。
2024年
诺贝尔化学奖与蛋白质结构紧密相关,一半授予
美国华盛顿大学的大卫·贝克(David Baker) ,以表彰其在计算蛋白质设计方面的贡献,另一半则共同授予英国伦敦谷歌
DeepMind公司的
戴米斯·哈萨比斯(Demis Hassabis)和约翰·江珀(John M.Jumper),以表彰其在蛋白质结构预测方面的贡献。大卫·贝克成功地完成了构建全新
蛋白质种类的壮举。
戴米斯·哈萨比斯和约翰·江珀开发了一个
人工智能模型来解决一个50年前的问题——预测蛋白质的复杂结构。
历史沿革
1959年
佩鲁茨,M.F.和肯德鲁对
血色素和肌血蛋白进行结构分析,解决了三维空间结构,获1962年化学奖。
1962年,
鲍林发现了蛋白质的基本结构,
弗朗西斯·克里克、沃森在X射线
衍射资料的基础上,提出了
脱氧核糖核酸三维结构的模型。获1962年生理或医学奖。50年代后
赫伯特·豪普特曼和卡尔勒建立了应用X射线分析得以直接法测定
晶体结构的
纯粹数学理论,在
晶体研究中具有划时代的意义,特别在研究大分子生物物质如激素、抗生素、
蛋白质及新型药物分子结构方面趣了重要作用。他们因此获1985年化学奖。
结构种类
蛋白质分子是由氨基酸首尾相连缩合而成的共价多肽链,但是天然蛋白质分子并不是走向随机的松散多肽链。每一种天然蛋白质都有自己特有的空间结构或称三维结构,这种三维结构通常被称为蛋白质的构象,即蛋白质的结构。
蛋白质的分子结构可划分为四级,以描述其不同的方面:
一级结构:组成蛋白质多肽链的线性氨基酸序列。
二级结构:依靠不同氨基酸之间的C=O和N-H基团间的
氢键形成的稳定结构,主要为α螺旋和β折叠。
三级结构:通过多个二级结构元素在三维空间的排列所形成的一个
蛋白质分子的三维结构。
四级结构:用于描述由不同多肽链(亚基)间相互作用形成具有功能的蛋白质
配位化合物分子。
除了这些结构层次,蛋白质可以在多个类似结构中转换,以行使其生物学功能。对于功能性的结构变化,这些三级或四级结构通常用
化学构象进行描述,而相应的结构转换就被称为构象变化。
一级结构
蛋白质的一级结构(primary structure)就是蛋白质多肽链中氨基酸残基的排列顺序(sequence),也是蛋白质最基本的结构。它是由基因上
遗传密码的排列顺序所决定的。各种氨基酸按遗传密码的顺序,通过肽键连接起来,成为多肽链,故肽键是蛋白质结构中的主键。
迄今已有约一千种左右
蛋白质的一级结构被研究确定,如
胰岛素,
胰核糖核酸酶、胰蛋白酶等。
蛋白质的一级结构决定了蛋白质的二级、三级等高级结构,成百亿的天然蛋白质各有其特殊的生物学活性,决定每一种蛋白质的生物学活性的结构特点,首先在于其肽链的氨基酸序列,由于组成蛋白质的20种氨基酸各具特殊的侧链,
侧链基团的
物理化学性质和空间排布各不相同,当它们按照不同的序列关系组合时,就可形成多种多样的空间结构和不同生物学活性的蛋白质分子。
蛋白质分子的多肽链并非呈线形伸展,而是折叠和盘曲构成特有的比较稳定的空间结构。
蛋白质的生物学活性和理化性质主要决定于空间结构的完整,因此仅仅测定蛋白质分子的
氨基酸组成和它们的排列顺序并不能完全了解蛋白质分子的生物学活性和理化性质。例如球状蛋白质(多见于
血浆中的白蛋白、球蛋白、
血色素和酶等)和纤维状蛋白质(
角蛋白、
胶原蛋白、肌凝蛋白、纤维蛋白等),前者溶于水,后者不溶于水,显而易见,此种性质不能仅用蛋白质的一级结构的氨基酸排列顺序来解释。
蛋白质的空间结构就是指蛋白质的二级、三级和四级结构。
二级结构
蛋白质的二级结构(secondary structure)是指多肽链中主链原子的局部空间排布即构象,不涉及侧链部分的构象。
Pauling等人对一些简单的肽及氨基酸的酰胺等进行了X线
衍射分析,从一个肽键的周围来看,得知:
(1)肽链中的C-N键长0.132nm,比相邻的
nc单键(0.147nm)短,而较一般C=N双键(0.128nm)长,可见,肽键中-C-N-键的性质介于单、双键之间,具有部分双键的性质,因而不能旋转,这就将固定在一个平面之内。
(2)肽键的C及N周围三个键角之和均为360°,说明都处于一个平面上,也就是说六个原子基本上同处于一个平面,这就是肽键平面。肽链中能够旋转的只有α
碳所形成的单键,此单键的旋转决定两个肽键平面的位置关系,于是肽键平面成为肽链盘曲折叠的基本单位。
(3)肽键中的C-N既具有双键性质,就会有顺反不同的立体异构,已证实处于反位。
1)α-螺旋Pauling等人对α-
角蛋白(α-keratin)进行了X线
衍射分析,从衍射图中看到有0.5~0.55nm的重复单位,故推测蛋白质分子中有重复性结构,并认为这种重复性结构为α-螺旋(α-helix).
α-螺旋的结构特点如下:
①多个肽键平面通过α-
碳旋转,相互之间紧密盘曲成稳固的右手螺旋。
②主链呈螺旋上升,每3.6个氨基酸残基上升一圈,相当于0.54nm,这与X线衍射图符合。
③相邻两圈螺旋之间借肽键中C=O和H形成许多链内氢健,即每一个氨基酸残基中的NH和前面相隔三个残基的C=O之间形成
氢键,这是稳定α-螺旋的主要键。
④肽链中氨基酸侧链R,分布在螺旋外侧,其形状、大小及电荷影响α-螺旋的形成。酸性或
碱性氨基酸集中的区域,由于同电荷相斥,不利于α-螺旋形成;较大的R(如
L-苯丙氨酸、
色氨酸、
异亮氨酸)集中的区域,也妨碍α-螺旋形成;
L-脯氨酸因其α-
碳位于五元环上,不易扭转,加之它是
亚氨基酸,不易形成氢键,故不易形成上述α-螺旋;
甘氨酸的R基为H,空间占位很小,也会影响该处螺旋的稳定。
2)β-片层结构Astbury等人曾对β-角蛋白进行X线
衍射分析,发现具有0.7nm的重复单位。如将毛发α-
角蛋白在湿热条件下拉伸,可拉长到原长二倍,这种α-螺旋的X线衍射图可改变为与β-角蛋白类似的衍射图。说明β-角蛋白中的结构和α-螺旋拉长伸展后结构相同。两段以上的这种折叠成锯齿状的肽链,通过
氢键相连而平行成片层状的结构称为β-片层(β-pleated sheet)结构或称β-折迭。
β-片层结构特点是:
①是肽链相当伸展的结构,肽链平面之间折叠成锯齿状,相邻肽键平面间呈110°角。氨基酸残基的R侧链伸出在锯齿的上方或下方。
②依靠两条肽链或一条肽链内的两段肽链间的C=O与N-H形成氢键,使构象稳定。
③两段肽链可以是平行的,也可以是反平行的。即前者两条链从“N端”到“C端”是同方向的,后者是反方向的。β-片层结构的形式十分多样,正、反平行能相互交替。
④平行的β-片层结构中,两个残基的间距为0.65nm;反平行的β-片层结构,则间距为0.7nm.
3)β-转角
蛋白质分子中,肽链经常会出现180°的回折,在这种回折角处的构象就是β-转角(β-
转动或β-bend)。β-转角中,第一个氨基酸残基的C=O与第四个残基的
Nh之间形成
氢键,从而使结构稳定。
4)无规卷曲
没有确定规律性的部分肽链构象,肽链中肽键平面不规则排列,属于松散的无规卷曲(random coil)。
超二级结构和结构域
超二级结构(supersecondary structure)是指在多肽链内顺序上相互邻近的二级结构常常在空间折叠中靠近,彼此相互作用,形成规则的二级结构聚集体。目前发现的超二级结构有三种基本形式:α螺旋组合(αα);β折叠组合(βββ)和α螺旋β折叠组合(βαβ),其中以βαβ组合最为常见。它们可直接作为三级结构的“建筑块”或结构域的组成单位,是
蛋白质构象中二级结构与三级结构之间的一个层次,故称超二级结构。
结构域(domain)也是蛋白质构象中二级结构与三级结构之间的一个层次。在较大的蛋白质分子中,由于多肽链上相邻的超二级结构紧密联系,形成二个或多个在空间上可以明显区别它与蛋白质亚基结构的区别。一般每个结构域约由100-200个氨基酸残基组成,各有独特的空间构象,并承担不同的生物学功能。如
免疫球蛋白(IgG)由12个结构域组成,其中两个轻链上各有2个,两个重链上各有4个;补体结合部位与抗原结合部位处于不同的结构域。一个
蛋白质分子中的几个结构域有的相同,有的不同;而不同蛋白质分子之间肽链中的各结构域也可以相同。如
乳酸脱氢酶、
3-磷酸甘油醛脱氢酶、
苹果酸脱氢酶等均属以NAD+为辅酶的脱氢酶类,它们各自由2个不同的结构域组成,但它们与NAD+结合的结构域构象则基本相同。
三级结构
蛋白质的多肽链在各种二级结构的基础上再进一步盘曲或折迭形成具有一定规律的三维空间结构,称为蛋白质的三级结构(tertiary structure)。
蛋白质三级结构的稳定主要靠次级键,包括
氢键、疏水键、
离子键以及范德华力(
Van der Wasls力)等。这些次级键可存在于一级结构序号相隔很远的氨基酸残基的R基团之间,因此蛋白质的三级结构主要指氨基酸残基的侧链间的结合。次级键都是非
共价键,易受环境中pH、温度、离子强度等的影响,有变动的可能性。二硫键不属于次级键,但在某些肽链中能使远隔的二个肽段联系在一起,这对于蛋白质三级结构的稳定上起着重要作用。
现也有认为
蛋白质的三级结构是指蛋白质分子主链折叠盘曲形成构象的基础上,分子中的各个侧链所形成一定的构象。侧链构象主要是形成微区(或称结构域domain)。对球状蛋白质来说,形成疏水区和亲水区。亲水区多在蛋白质分子表面,由很多亲水侧链组成。疏水区多在分子内部,由疏水侧链集中构成,疏水区常形成一些“洞穴”或“口袋”,某些辅基就镶嵌其中,成为活性部位。
具备三级结构的蛋白质从其外形上看,有的细长(长轴比短轴大10倍以上),属于纤维状蛋白质(fibrous protein),如丝心蛋白;有的长短轴相差不多基本上呈球形,属于球状蛋白质(globular protein),如
血浆清蛋白、球蛋白、肌红蛋白,球状蛋白的疏水基多聚集在分子的内部,而亲水基则多分布在分子表面,因而球状蛋白质是亲水的,更重要的是,多肽链经过如此盘曲后,可形成某些发挥生物学功能的特定区域,例如酶的活性中心等。
四级结构
具有二条或二条以上独立三级结构的多肽链组成的
蛋白质,其多肽链间通过次级键相互组合而形成的空间结构称为蛋白质的四级结构(quarternary structure)。其中,每个具有独立三级结构的多肽链单位称为亚基(subunit)。四级结构实际上是指亚基的立体排布、相互作用及接触部位的布局。亚基之间不含
共价键,亚基间次级键的结合比二、三级结构疏松,因此在一定的条件下,四级结构的蛋白质可分离为其组成的亚基,而亚基本身构象仍可不变。
一种蛋白质中,亚基结构可以相同,也可不同。如烟草斑纹病毒的外壳蛋白是由2200个相同的亚基形成的多聚体;正常人血红蛋白A是两个α亚基与两个β亚基形成的四聚体;天冬氨酸氨甲酰基转移酶由六个调节亚基与六个
催化亚基组成。有人将具有全套不同亚基的最小单位称为原聚体(protomer),如一个催化亚基与一个调节亚基结合成天冬氨酸氨
甲酰基转移酶的原聚体。
某些
蛋白质分子可进一步聚合成聚合体(
均聚物)。聚合体中的重复单位称为
单体(monomer),聚合体可按其中所含单体的数量不同而分为二聚体、
三聚体……寡聚体(oligomer)和多聚体(polymer)而存在,如
胰岛素(insulin)在体内可形成二聚体及六聚体。
主条目:四级结构
四级结构是由两个或多个多肽链通过相互作用形成的结构。其中,单独的一条链就被称为亚基。亚基之间不一定要共价连接,但有一些亚基之间是通过二硫键来连接的。不是所有的
蛋白质都有四级结构,许多蛋白可以以
单体形式来发挥功能。四级结构的稳定性与三级结构处于同一水平。两个或多个亚基形成的
配位化合物统称为多聚体(multimer),如果是两个亚基则称二聚体或二体(dimer),三个亚基称
三聚体或三体(trimer),以此类推。如果多聚体为相同的亚基组成,则加上“
同源(homo-)”作为前缀,反之则用“异源(hetero-)”,如同源二聚体或异源三聚体。
植物中的
核酮糖-1,5-二磷酸(1,5-二磷酸核糖羧化酶/加氧酶)复合物(左)和细菌中的RuBisCo复合物(右)四级结构的比较。前者由12个亚基组成,后者则为2个。
作用
构成生物体内基本物质,为生长及维持生命所必需;
生物的免疫作用所必需的物资;
应用
在结构基因组学中的应用
已经测定了
酿酒酵母(Saccharomyces cereuisiae)、
线虫(Caenorhabditis elegans)、
果蝇(Drosophilamelanogaster)、拟南芥(Arabidopsis thaliana)等
模式生物的
基因组序列.。特别值得一提的是,随着人类基因310福建农林大学学报(自然科学版)第35卷组计划(Human Genome Program)的完成,接下来的重点就转移到研究这些基因组里的所有基因的结构和功能。因此,结构基因组学受到了世界各国的高度重视,
美国、
日本、
欧洲纷纷建立了结构基因组学的研究机构。结构基因组学就是以大规模、高通量测定这些基因的表达产物蛋白质分子的结构为研究目标,以高通量基因克隆技术、蛋白质表达及其纯化、蛋白质结晶、蛋白质结构测定为主要研究内容的基因组学分支。
蛋白质结构测定比
基因组测定难度大得多,按照常规的实验步骤,从基因序列到相应的蛋白质结构测定之间还要经过基因表达、蛋白质的提取和纯化、结晶、X射线
衍射分析等步骤。由于蛋白质结构和性质的多样性,这些步骤大多没有固定的规律可循,因而,这种作坊式的需要高超技巧和丰富经验的研究方法难以适应测定生物
蛋白质组中所有蛋白质的要求,因此,需要建立理论分析方法来解决这些问题。以预测技术水平,预测结果的精确度不如X射线衍射分析和NMR等实验手段,但
蛋白质结构预测是大规模、低成本和快速获得三维结构的有效途径,例如当目标蛋白质和模板蛋白质的序列相似性超过30%时,以结构预测方法建立的蛋白质三维结构模型就可以用于一般性的功能分析。因而,蛋白质预测技术在结构基因组学中得到了广泛的应用。
在药物设计中的应用
从
基因组数据到新药物的过程分为2个部分:一是选择目标蛋白,二是选择合适的药物,药物分子必需与目标蛋白质分子紧密结合、容易合成且没有毒副作用。传统的药物设计通过筛选大量的天然化合物、已知的底物或配基的类似物(anaIogs)以及生物
化学研究来确定前导物(Iead compounds),较少依赖目标
蛋白质的三维结构,因而研发周期长、费用巨大,并且带有或多或少的盲目性。随着蛋白质结构数据的增长和结构预测技术的发展,目标蛋白质分子三维结构的信息对于上述2个过程发挥着越来越大的作用,
计算机辅助的药物设计(computer-aided drug
设计)可以缩短研发周期和降低成本。
在蛋白质设计中的应用
蛋白质设计的目标是通过计算机辅助的算法以生成符合目标蛋白质三维结构的氨基酸序列,经过漫长的进化,自然界已经筛选出了数量众多的蛋白质,但天然蛋白质只有在自然条件下才发挥最佳功能,这使得人们利用这些蛋白质受到了限制,因此需要对蛋白质进行改造使其能适应特定条件发挥特定的功能。
蛋白质分子的设计分为3类:小改、中改和大改。
组成
(1).单纯蛋白质:仅含有AAs
(2).结合蛋白质:由AAs和其他非蛋白质化合物所组成
(3).衍生蛋白质:用化学或酶学方法得到的化合物
分子组成
基本单位:氨基酸有不同的AAs通过肽键相互连接而成
元素组成
由碳,氢,氧,氮,硫,磷,碘,铁,锌等元素组成。
功能分类
(3).食品蛋白质:凡可供食用,易消化,无毒和可供人类利用的蛋白质
肽键
肽键两个氨基酸通过脱水形成肽键
二面角φ和ψ的图示。其中黄色部分显示的是
肽基,而R1和R2分别表示左右两个残基的侧链。
两个氨基酸可以通过
羟醛缩合结合在一起,并在两个氨基酸之间形成肽键。而不断地重复这一反应就可以形成一条很长的残基链(即多肽链)。这一反应是由
核糖体在翻译进程中所催化的。肽键虽然是单键,但具有部分的双键性质(由C=O双键中的π电子云与N原子上的未共用电子对发生
共振导致),因此C-N键(即肽键)不能旋转,从而连接在肽键两端的基团处于一个平面上,这一平面就被称为
肽基。而对应的肽
二面角φ(肽平面绕
ncα键的旋转角)和ψ(肽平面绕Cα-C1键的旋转角)有一定的取值范围;一旦所有残基的二面角确定下来,
蛋白质的主链构象也就随之确定。根据每个残基的φ和ψ来做图,就可以得到Ramachandran图,由于形成同一类二级结构的残基的二面角的值都限定在一定范围内,因此在Ramachandran图上就可以大致分辨残基参与形成哪一类二级结构。下表列出了肽键与对应类型单键以及
氢键键长的比较。
侧链构象
残基侧链上的原子根据
希腊字母表的顺序(α、β、γ、δ、ε等)来命名,如Cα指的是对应残基上最接近
羰基的
碳,而Cβ则是次接近的。Cα通常被认为是主链骨架的组成原子。这些原子之间的键对应的
二面角则相应以χ1、χ2、χ3等来命名,如
赖氨酸侧链上第一、二个碳原子(即Cα和Cβ)之间
共价键的二面角为χ1。侧链可以有多种不同的构象,每一种类型的残基都有几种比较稳定的侧链构象。
类型
许多
蛋白质都可以被分为多个结构组成单元,结构域就是这样一个组成单元。结构域一般可以自稳定,且常常独立进行折叠,而不需要蛋白质其他部分的参与;很多结构域都有自己独特的生物学功能。很多结构域并不是一个基因或基因家族对应蛋白质的独特结构单元,而往往是许多类蛋白质的共同结构单元。结构域常常是以其生物学功能来命名,如“钙离子结合结构域”;或以几类最初发现此结构域的蛋白名称衍生而来,如PDZ结构域(最初发现于PSD95、DlgA和ZO-1这三个
蛋白质)。由于结构域自身可以稳定存在,因此可以将不同来源的结构域通过遗传工程人为地结合在一起,形成杂合蛋白质。
结构花样(structural motif)同样是一种结构组成单元,它是由几个二级结构的特定组合(如螺旋-转角-螺旋)所组成;这些组合又被称为超二级结构。结构花样往往还包含有长度不同的loop区。
折叠类型则指的是整体的结构排列类型,如螺旋束和β桶。
尽管
真核生物生物体可以表达数万种不同的蛋白质,但对应的结构域、结构花样与折叠类型的数量却少得多。一种合理的解释是,这是进化的结果;因为基因或基因的一部分可以在
基因组内被加倍或移动。也就是说,通过
基因重组,一个结构域可以从相应
蛋白质A移动到本不具有此结构域的蛋白质B上,而其发生的进化驱动力可能是由于该结构域对应的生物学功能趋向于被蛋白质B所利用。
蛋白质折叠
从一级结构到更高级结构的过程就被称为蛋白质折叠。一个序列特定的多肽链(折叠之前的蛋白质一般都被称为多肽链)一般折叠为一种特定构象(又称为天然构象);但有时可以折叠为一种以上的构象,且这些不同构象具有不同的生物学活性。在
真核生物细胞内,许多蛋白质的正确折叠需要分子伴侣的帮助。
结构分类
对蛋白质结构进行分类的方法有多种,有多个结构数据库(包括SCOP、CATH和FSSP)分别采用不同的方法进行结构分类。存放蛋白质结构的PDB数据库中就引用了SCOP的分类。对于大多数已分类的蛋白质结构来说,SCOP、CATH和FSSP的分类是相同的,但在一些结构中还有所区别。
结构预定
专门存储
蛋白质和核酸分子结构的蛋白质数据库中,接近90%的蛋白质结构是用X射线晶体学的方法测定的。X射线
晶体学可以通过测定蛋白质分子在晶体中电子密度的空间分布,在一定分辨率下解析蛋白质中所有原子的三维坐标。大约9%的已知蛋白结构是通过核磁共振技术来测定的。该技术还可用于测定蛋白质的二级结构。除了核磁共振以外,还有一些生物化学技术被用于测定二级结构,包括圆二色谱。冷冻电子显微技术是近年来兴起的一种获得低分辨率(低于5埃)
蛋白质结构的方法,该方法最大的优点是适用于大型蛋白质复合物(如病毒外壳、
核糖体和类淀粉蛋白纤维)的结构测定;并且在一些情况下也可获得较高分辨率的结构,如具有高对称性的病毒外壳和膜蛋白二维晶体。
近年来,随着结构基因组学的兴起,大量的蛋白质结构获得了测定,为研究蛋白质的作用机理提供了重要的结构信息。
结构预测
测定蛋白质序列比测定蛋白质结构容易得多,而蛋白质结构可以给出比序列多得多的关于其功能机制的信息。因此,许多方法被用于从序列预测结构。