2025-06-24 16:41来源:本站
对组件及其动机的广泛解释可在补充方法1.1-1.10中获得,此外,伪码在补充信息算法1-32中可获得补充图2中的网络图。1–8,补充表1中的输入特征,补充表2,3提供了其他详细信息。补充方法1.11-1.12和补充表4、5提供了培训和推理细节。
IPA模块结合了配对表示,单个表示和几何表示形式,以更新单个表示(补充图8)。这些表示中的每一个都对共享的注意权重有效,然后使用这些权重将其值映射到输出。IPA在3D空间中运行。每个残留物在其本地框架中产生查询点,关键点和值点。这些点使用它们相互相互作用的残基的骨架框架投影到全局框架中。然后将结果点投射回本地框架。3D空间中的亲和力计算使用平方距离,坐标转换确保了该模块相对于全局框架的不变性(请参阅补充方法1.8.2“不变点注意(IPA)”,算法证明不变性和对完整多头版本的描述)。使用经典的几何不变式来构建成对特征代替学习的3D点的相关结构已应用于Protein Design59。
除IPA外,还根据抽象单一表示计算标准点产品的注意力,并特别关注对对表表示。两对表示增强了注意力过程的逻辑和值,这是两对表示结构生成的主要方式。
网络的输入是主要序列,是由杰克·梅默60和hhblits61(包括杰克·梅默60和hhblits61)创建的MSA形式的进化相关蛋白的序列,以及少数同源结构(模板)的3D原子坐标。对于MSA和模板,搜索过程都经过调整以进行高回忆。伪造的比赛可能会出现在RAW MSA中,但这与网络的训练条件相匹配。
使用的序列数据库之一是Big奇幻数据库(BFD),是定制制作的,并公开发布(请参阅“数据可用性”),并被几个CASP团队使用。BFD是蛋白质家族最大的公开收藏之一。它由代表MSA的65,983,866个家族和隐藏的马尔可夫模型(HMMS)组成,涵盖了参考数据库,宏基因组和元文字的2,204,359,010个蛋白质序列。
BFD分为三个步骤。首先,从UniProt(Swiss-Prot&Trembl,2017-11)62,土壤参考蛋白目录和海洋真核病参考catalogue7收集了2,423,213,294个蛋白序列,并使用90%平整覆盖了Shorers semeqs2,并群群序列序列标识为30%。这导致了345,159,030个集群。为了计算效率,我们删除了所有成员少于三个成员的群集,从而产生了61,083,719个群集。其次,我们通过使用MMSEQS264对齐与簇代表对齐,从metaclust NR中增加了166,510,624个代表性的蛋白序列(2017-05;丢弃所有序列短于150个残基)63。满足序列身份和覆盖标准的序列被分配给最佳评分集群。将其余的25,347,429个无法分配的序列分别聚类并添加为新簇,从而导致最终聚类。第三,对于每个集群,我们使用FAMSA65计算了一个MSA,并按照Uniclust HH-Suite数据库协议计算了HMMS36。
这项研究使用了以下公共数据集的以下版本。Our models were trained on a copy of the PDB5 downloaded on 28 August 2019. For finding template structures at prediction time, we used a copy of the PDB downloaded on 14 May 2020, and the PDB7066 clustering database downloaded on 13 May 2020. For MSA lookup at both training and prediction time, we used Uniref9067 v.2020_01, BFD, Uniclust3036V.2018_08和MGNIFY6 V.2018_12。对于序列蒸馏,我们使用Uniclust3036 V.2018_08来构建蒸馏结构数据集。完整的详细信息在补充方法1.2中提供。
对于BFD+Uniclust30上的MSA搜索,并针对PDB70进行了模板搜索,我们使用了HHBlits61和HHSearch66,来自HH-Suite v.3.0-Beta.3(版本14/07/2017)。对于MSA在UNIREF90上搜索并聚集了MGNIFY,我们使用了HMMER368的Jackhmmer。对于结构放松的约束,我们将OpenMM v.7.3.169与Amber99SB力场32一起使用。对于神经网络构建,运行和其他分析,我们使用了Tensorflow70,Sonnet71,Numpy72,Python73和Colab74。
为了量化不同序列数据源的效果,我们使用相同的模型重新运行CASP14蛋白,但改变了MSA的构建方式。删除BFD将平均准确性降低了0.4 GDT,删除MGNIFY将平均准确性降低了0.7 GDT,并将两者都降低了平均准确性,将平均准确性降低了6.1 GDT。在每种情况下,我们都发现大多数目标的准确性变化很小,但是一些离群值的差异很大(20+ GDT)。这与图5A的结果一致,在图5a中,MSA的深度相对不重要,直到当MSA大小效应非常大时接近30个序列的阈值。我们观察到包含BFD和MGNIFY之间的重叠效应,但是对于在UNIREF代表不当的目标类别中,至少具有这些元基因组学数据库中的至少一个非常重要,并且两者都必须实现完全的CASP准确性。
要训练,我们使用PDB的结构,最大发布日期为2018年4月30日。链的采样与40%序列身份聚类的群集大小相反。然后,我们将它们随机裁剪成256个残基,并将其组装成128号尺寸的批次。我们在张量处理单元(TPU)V3上训练该模型,其批量大小为每TPU核心1,因此该模型使用128 TPU V3核心。该模型经过训练,直到收敛(约1000万样品),并使用384个残基,较大的MSA堆栈和降低的学习率的较长农作物进行了微调(有关确切配置的补充方法1.11)。初始训练阶段大约需要1周,而微调阶段大约需要4天。
该网络受到FAPE损失和许多辅助损失的监督。首先,最终对表示线性地投影到binned距离分布(距离)预测,并以跨透镜损失评分。其次,我们在输入MSA上使用随机掩蔽,并要求网络使用BERT样损失37从输出MSA表示中重建掩盖区域。第三,结构模块的输出单一表示用于预测均值的lddt-cα值。最后,我们在训练过程中使用辅助侧链损失,并在微调过程中使用辅助结构损失。补充信息中提供了详细的描述和权重。
使用上述目标训练的初始模型用于对完整MSA的Uniclust数据集进行结构预测。These predictions were then used to train a final model with identical hyperparameters, except for sampling examples 75% of the time from the Uniclust prediction set, with sub-sampled MSAs, and 25% of the time from the clustered PDB set.
我们使用不同的随机种子训练五个不同的模型,其中一些带有模板,有些没有模板,以鼓励预测中的多样性(有关详细信息,请参见补充表5和补充方法1.12.1)。我们还以CASP14之后对这些模型进行了微调,以添加PTM预测目标(补充方法1.9.7),并将获得的模型用于图2D。
我们推断五个训练有素的模型,并使用预测的置信得分选择每个目标的最佳模型。
使用我们的CASP14配置对AlphaFold,该网络的后备箱多次运行,对MSA群集中心进行不同的随机选择(有关结合过程的详细信息,请参见补充方法1.11.2)。进行结构预测的全职预测因蛋白质的长度而变化很大。在V100 GPU上使用单个模型的神经网络的代表性时间为4.8分钟,残基256分钟,9.2分钟,残基为384小时,残留在2,500个残留物为18小时。这些时间是使用我们的开源代码测量的,并且开源代码比我们现在使用XLA Compiler75在CASP14中运行的版本要快得多。
自CASP14以来,我们发现网络的准确性而无需结合,与结合的准确性非常接近或等于,并以大多数推断关闭结合。没有结合,网络的速度更快8×,单个模型的代表性时间为0.6分钟,残基为256分钟,1.1分钟,384个残基和2.1 h,残基2500。
推断大蛋白很容易超过单个GPU的内存。对于具有16 GB内存的V100,我们可以预测蛋白质的结构,而无需结合,而256-和384-遗留推理时间正在使用单个GPU的内存。残基的数量大约是二次的,因此2,500个残留的蛋白质涉及使用统一的内存,因此我们可以大大超过单个V100的内存。在我们的云设置中,单个V100用于在2,500个残留蛋白上进行计算,但我们要求四个GPU具有足够的内存。
搜索遗传序列数据库准备结构的输入和最终放松,需要其他中央处理单元(CPU)时间,但不需要GPU或TPU。
根据LDDT Metric34,将预测的结构与PDB的真实结构进行了比较,因为该指标报告了域精度,而无需域结构的域分割。距离是在所有重原子(LDDT)或仅在Cα原子之间计算的,以测量主链精度(LDDT-Cα)。由于LDDT-Cα仅着眼于Cα原子,因此不包括对结构违规和冲突的惩罚。CASP中的域精度据报道为GDT33,TM-SCORE27用作全链全局叠加度量。
我们还使用R.M.S.D.95(95%覆盖率的CαR.M.S.D.)报告精度。我们在当前选择的Cα原子上(使用第一次迭代中的所有Cα原子),对(1)(1)(1)最小二乘对齐的PDB结构进行了五个迭代;(2)选择最低比对误差的95%的Cα原子。R.M.S.D.最终迭代选择的原子是R.M.S.D.95。对于可能起源于晶体结构人工制品的表观误差,该度量更为强大,尽管在某些情况下,将5%的残基删除将包含真正的建模误差。
为了评估最近的PDB序列(图2A – D,4A,5A),我们使用了2021年2月15日下载的PDB的副本。结构被过滤到2018年4月30日之后发布日期的人(纳入Alphafold的培训集的日期限制)。进一步过滤链条,以去除由单个氨基酸和序列组成的序列,以及在任何残基位置上具有模棱两可的化学成分的序列。除去精确的重复项,其链具有最终分辨的Cα原子作为代表性序列。随后,除去了少于16个解析残基,残基或通过NMR方法求解的结构。由于PDB包含许多近乎缩写的序列,因此从PDB 40%序列集群中的每个群集中选择了最高分辨率的链。此外,我们除去了所有序列,而这些序列少于80个氨基酸使α碳解析并去除了1,400多个残基的链条。最终数据集包含10,795个蛋白质序列。
基于先前模板身份过滤最近的PDB数据集的过程如下。HMMSearch的运行使用默认参数与PDB SEQRES FASTA的副本下载了2021年2月15日。如果关联结构的发布日期提前大于2018年4月30日,则可以接受模板命中。在查询顺序中的每个残基位置均分配了任何模板击中该位置的最大标识。然后,根据最大身份和序列覆盖率的组合,过滤如单个图传说中所述进行的。
MSA深度分析基于计算查询序列的每个位置的归一数量效率序列(NEFF)。通过计算MSA中的非间隙残基的数量来获得该位置的非间隙残基的数量,并使用NEFF方案76加权序列,并以80%序列身份的阈值在任何一个序列的非间隙上测得的阈值,从而获得了均值NEFF值。
有关研究设计的更多信息可在与本文有关的自然研究报告摘要中获得。