蛋白质稳定的遗传结构

2025-06-21 23:31来源:本站

  库1是使用计算高效的贪婪策略设计的,以搜索最大数量的单个AA替换,这些替换在合并后,即使在最高阶段的突变体中也可以保持折叠和功能(图1B)。GRB2-SH3的算法先前发布的DDPCA数据和热力学建模结果,包括推断该蛋白23的折叠和结合的推断的单个AA替代自由能变化。我们先前表明,该模型(假设个体推断出折叠和结合自由能的变化(ΔΔGF和ΔΔGB)在多突变体中添加性地结合在一起)可以准确地预测了双AA替代的影响23。因此,使用相同的添加剂模型来预测贪婪搜索中探索的高阶突变体的能量和表型效应。

  首先,一组候选单一AA突变仅限于具有自信的自由能变化的人,该突变定义为置信区间95%<1 kcal mol -1,其效果在至少20个遗传背景中进行了测量(即双AA突变)。候选突变被进一步限制在野生型序列中单核苷酸取代的候选突变,以简化所得组合诱变文库的合成。该算法是从任意起始突变开始的,并迭代地在其他残基位置选择进一步的突变,直到蛋白质中的所有残基已突变为止。启发式作品是通过在每个步骤中选择进一步的突变,从而最大程度地提高了当前最高阶突变体组合的折叠和功能,即模型预测的丰度PCA和结合PCA生长速率的几何平均值。然后重复所有可能的起始突变。

  为了可视化和比较所得的解决方案,我们还模拟了所有候选组合库的中值丰度和结合PCA的增长率,该库是使用10,000个变体的随机样本计算得出的。尽管不能保证该算法在与野生型序列的每个锤距离距离处产生最佳溶液,但是贪婪的方法仍然达到了解决方案,其中预计两个表型都被预计将在具有30多个突变的变体中保留(扩展数据图1B),超出了哪个现象型。将可行的图书馆定义为将两个分子表型保留的库定义为最大值的70%(即模拟中位数丰度PCA和BINDINGPCA增长率的几何平均值),导致最大的候选组合库库由34个单一AA突变组成的所有组合(图1和扩展数据)。

  我们聚集了包含所有GRB2-SH3表面残基(RSASA≥0.25)的接触图(最小侧链重原子距离<5Å)中存在于二级结构元素中(扩展数据图4),并选择了以下四个物理近端残基的饱和组合组合型突变(H26,M28,M28,M28,A39,A3和T4)和T4(sa39)和t4(a39)和T4(sa39)和T4(sa39)和t4(s)。

  This library was designed to include all combinations of 15 single aa substitutions with mild effects (within one-third of the AbundancePCA fitness interquartile range of the wild type23)​​ in close proximity in the primary sequence and reachable by single-nucleotide substitutions while avoiding mutations in binding interface residues (minimal side-chain heavy-atom distance to the ligand < 5 Å).我们使用了滑动窗口方法来确定grb2-Sh3中20、21和22连续残基的候选突变残基的数量(扩展数据图4B)。只有一个宽度为22 aa的窗口(从残留位置10开始)包括15个候选位置(扩展数据图4B)。最终库由以下所有位置随机选择的候选突变组成:D10N,P11A,D14N,G15E,G18C,G18C,R20S,R21Q,R21Q,D23E,F24I,F24I,H26L,H26L,V27I,V27I,M28K,M28K,D29E,D29E,N30T和S31T(参见图4)。

  该库是使用来自SRC51的数据和热力学建模结果的相同贪婪算法设计的,包括推断该蛋白质的折叠和活性的单个AA替代自由能变化。该设计包括15个单个AA替换,可以通过单个NT替换在22个AA窗口中,位于SRC激酶域的N-LOBE中,避免了激活环中的突变,子集折叠和活动DDGS以自信的能量(95%的置信度间隔<1 kcal mol-1),并且与单身人士至少在七个背景下相关。最终库由以下位置随机选择的候选突变的所有组合组成:V329G,G344S,F349V,K343M,E331K,V337A,E332A,E332A,M341K,M341K,S330N,S330N,S336L,I336L,I338S,T338S,T338S,S3453333333333333333 3333 3333 3333 333 346 t,p3466)。

  对于文库1–3:GRB2诱变质粒PGJJ286:野生型Grb2-Sh3从pGJJ046(以前描述了先前描述)使用限制性酶Avrii和hindiii和hindiii,并将其链接到Invested pgjj191(介绍的biolabs)中(使用了T4 ligland 24 ligland)(T4 ligland)(T4 ligland)。先前描述了AbundancePCA PGJJ046和PGJJ045质粒以及BindingPCA PGJJ034和PGJJ001质粒23。对于库4:以前描述了包含全长SRC的PTB043质粒51。PTB043基于与AbundancePCA质粒相同的主链。区别在于,全长SRC融合到其N末端处的DHFR [3]片段和其C末端处的DHFR [1,2]片段,因此在SRC正确折叠后,将重构DHFR,而展开的SRC基因型会导致融合蛋白的降解。

  图书馆1–3:图书馆以两个步骤构建。首先,吉布森将含有突变组合的IDT引物组装到诱变质粒PGJJ286中。然后通过消化/连接将库克隆到酵母菌质粒PGJJ045和BINDINGPCA PGJJ001中。在第一步中,通过两个片段的吉布森反应(内部制剂)组装了诱变质粒的文库。通过聚合酶链反应(PCR)在补充表1和2中显示的寡聚物通过聚合酶链反应(PCR)扩增载体片段,并与DPNI一起孵育以除去模板并使用Qiaquick gel gel firaction Kit(QIAGEN)纯化模板并纯化凝胶。通过将等摩尔量的IDT突变引物(补充表1和2)和反向伸长引物(补充表1和2)混合,并在一个Q5聚合酶(New England Biolabs)中孵育一个循环,从而获得插入片段。然后将DsDNA产物与ExoSap-IT(应用生物系统)一起孵育,以去除其余的ssDNA,并用Minelute柱(Qiagen)纯化。将100 ng的载体与插入物的摩尔比为1:5,在50°C下与2×制备的内部制备的吉布森混合物在50°C下孵育3小时。通过透析与膜过滤器(MF-Millipore)脱盐1小时,并使用SpeedVac浓缩器(Thermo Scientific)浓缩4倍。然后将DNA转化为NEB 10-β高效率电位大肠杆菌。使细胞在SOC培养基(NEB 10-β稳定的野生生长培养基)中恢复30分钟,然后用spectinomycin转移到LB培养基过夜。还将一小部分细胞铺在素霉素+lb+琼脂平板中,以估计转化剂的总数。第二天早晨收集100 mL每个饱和大肠杆菌培养物,以使用Qiafilter质粒MIDI KIT(Qiagen)提取诱变质粒文库。为了将最终文库获取到酵母质粒中, libraries in pGJJ286 plasmid were digested with NheI and HindIII, gel purified (MinElute Gel Extraction Kit, QIAGEN) and cloned into pGJJ045 or pGJJ034 digested plasmids with T4 ligase (New England Biolabs) by temperature-cycle ligation following the manufacturer’s instructions, 67 fmol of backbone and在33.3-μL反应中的200 FMOL插入物。使用膜过滤器通过透析脱盐1小时,使用SpeedVac浓缩器(Thermo Scientific)浓缩4倍,并转化为NEB 10-β高效率的电效性大肠杆菌细胞。

  库4:该库是通过两个片段的吉布森反应在一步中构建的。通过在补充表1和2中显示的寡核体对PTB043质粒的扩增获得了矢量片段。第二个片段是使用突变的IDT引物作为模板(补充表1和2)用PCR十个周期获得的第二个片段。

  先前描述了酵母选择测定法23。根据每个库的转换物数量(补充表2),将下面描述的高效率酵母转化协议(调整为200 mL YPDA的预培养物调整为200 mL YPDA)。在30°C的20 mL标准YPDA中,在30°C的标准YPDA中生长了三种独立的BY4742预培养。第二天早晨,将培养物在OD600nm = 0.3的情况下稀释到200 mL预热的YPDA中,并在30°C下孵育4小时。然后在3,000克时收集细胞,并在3,000克上离心5分钟,用无菌水和SORB培养基洗涤,重悬于8.6毫升的SORB中,并在室温下孵育30分钟。孵育后,将175μl的10 mg ml -1煮沸的鲑鱼精子DNA(安捷伦基因组学)和3.5μg的质粒库添加到每个细胞中,并轻轻混合。将35毫升的板混合物添加到每个管中,以在室温下再孵育30分钟。将3.5毫升的DMSO添加到每个管中,然后将细胞在42°C下进行热激20分钟(不时反转管以确保均匀的传热)。热休克后,将细胞离心并重悬于大约50 mL的恢复培养基中,并在30°C下恢复1小时。然后将细胞离心,用SC-ura培养基洗涤,并重悬于200 mL SC-ura中。将10μL铺在SC-ura培养皿上,并在30°C下孵育约48小时以测量转化效率。独立的液体培养物在30°C生长约48小时,直到饱和。将饱和细胞再次稀释至Sc-ura/Met/Ade培养基中的OD600Nm = 0.1,并允许在30°C和200 rpm下生长四代OD600Nm = 1.6。然后,将一小部分培养物用于接种含有甲氨蝶呤的200 mL竞争培养基,该培养基在起始OD600Nm = 0.05时收集,然后收集其余的,并将颗粒冻结并存储为输入。竞争培养基中的细胞可以生长3-5代(补充表2), 收集并冷冻并存储为输出。

  先前描述了使用的DNA提取方案23。下面的协议是在OD600nm≈1.6处的100 mL收集的培养物。根据库将协议缩放或向下缩放(补充表2)。将细胞颗粒(每个实验输入/输出重复一个)重悬于1 ml的DNA提取缓冲液中,通过干冰/乙醇浴冷冻,并在水浴中在62°C下孵育两次。随后,添加了1 mL苯酚/氯/氯/氨基氨的比例为25:24:1(在10 mM Tris-HCl中平衡,添加10 mM Tris-HCl,1 mM EDTA,pH 8.0),以及1 g酸洗涤的玻璃珠(Sigma Aldrich),样品和样品旋转10分钟。将样品在室温下以4,000 rpm离心30分钟,然后将水相转移到新管中。同一步骤重复了两次。将0.1 mL的NAOAC 3 m和2.2 mL预冷的绝对乙醇添加到水相中。将样品轻轻混合并在-20°C下孵育至少30分钟。之后,将它们全速离心30分钟,以使DNA沉淀。除去乙醇,并在室温下允许DNA颗粒干燥过夜。将DNA颗粒重悬于0.6 mL TE 1X中,并在37°C下用5μLRNaseA(10 mg ML,Thermo Scientific)处理30分钟。为了脱盐和浓缩DNA溶液,使用了Qiaex II凝胶提取试剂盒(50 µL的Qiaex II珠,Qiagen)。将样品用PE缓冲液洗涤两次,并用125 µL的10 mM Tris-HCI缓冲液洗脱两次,pH 8.5。最后,使用底漆对OGJJ152 – OGJJ153对总DNA提取物(也包含酵母基因组DNA)中的质粒浓度进行定量,该底漆对与质粒的ORI区域结合。

  图书馆1-3:参考文献中显示了这一点。23。简短地,测序库是在两个连续的PCR分析中构建的。设计了第一个PCR(PCR1),以扩增感兴趣的突变蛋白,并通过在适配器和感兴趣的测序区域之间引入框架偏移碱(补充表1和2)来增加第一个测序碱基的核苷酸复杂性。为了添加Illumina适配器的其余部分和反复索引索引,必须使用第二个PCR(PCR2)。使用热启动高保真DNA聚合酶独立运行每个样品的PCR2反应。在第二个PCR中,将Illumina适配器的其余部分添加到库扩增子中。所有样品(GJJ_1J)的正向底漆(5'P5 Illumina衔接子)均相同,而反向引物(3'P7 Illumina贴适中器)则与条形码指数(补充表3)不同,并在深度测序后随后汇集和消除。将所有样品以等摩尔比的合并,并使用Qiaex II凝胶提取试剂盒纯化凝胶。在CRG基因组核心设备上,对纯化的扩增子库池进行了Illumina 150 bp配对的NextSeq500测序。

  库4:准备测序库的方法与其他库相同,但是在第二个PCR步骤中,我们也使用了前向引物中的条形码索引(5'P5 Illumina适配器)。这次使用Illumina配对的NextSeq2000机器对纯化的扩增子库池进行了测序。

  使用默认设置(https://github.com/lehner-lab/dimsum),使用DIMSUM v1.3(参考52)处理所有acundancePCA和BINDINGPCA实验的配对末端测序的FASTQ文件。补充表4包含所有实验的Dimsum适应性估计和相关误差。在这些数据集上运行DIMSUM所需的实验设计文件和命令行选项可在GitHub(https://github.com/lehner-lab/archstabms)上找到。丢弃了任何重复的读数读数计数少于十个输入读数的变体(“ FitnessmininputCountall”选项),也就是说,只保留了以上所有重复的变体。对于库1,我们还包括了从一个重复的子集中得出的健身估计值,其输入读数计数超过此阈值(“ FitnessmininputCountany”选项;请参见图1)。

  对于库1,我们还提供了仅使用PGJJ046作为模板进行测序的仅野生型样品,以得出测序错误率的经验估计。该样品的FASTQ文件与具有宽松基础质量阈值的DIMSUM中的重复输入/输出样本相同(“ vsearchminqual = 5”和“ vsearchmaxee = 1000”)。然后,通过减去从野生型样本中得出的预期测序误差的预期数量,并与每个样品的总测序库大小成比例,对所有变体的读数进行调整。最后,然后从带有DIMSUM的校正变异数(“ Countpath”选项)中获得了库1的适应性估计和相关错误。

  我们使用Mochi43(https://github.com/lehner-lab/mochi)适合所有热力学模型,以使用默认设置和少量调整来组合DMS数据。该软件基于我们先前描述的基因型 - 表型建模方法23,具有额外的功能和改进,易用性和灵活性24,43。使用原始软件实施23获得了适合浅层(双突出)库(例如,双突出)库(例如,组合诱变库设计)的分析(例如,组合诱变库设计)。

  我们将蛋白质折叠建模为两个状态之间的平衡:展开的(u)和折叠(f),以及蛋白质结合为三个状态之间的平衡:展开和未结合(UU),折叠和折叠(FU),折叠(FU),折叠和结合(FB)。我们假设展开状态和结合状态(UB)的概率可忽略不计,并且折叠和结合的自由能变化是加性的,也就是说,任意变体的总结合和折叠自由能变化相对于野生型序列而言,与野生型序列相对于野生型序列的总和仅是与所有构成型单个AA替代物相对应的残基特异性能量的总和。

  我们配置了Mochi参数,以指定一个神经网络结构,该神经网络结构由要推断的每个生物物理性状(分别为折叠或折叠和折叠和绑定分别为bundancePCA或BindingPCA)组成的添加性状层(自由能),以及一个线性转换层,每个观察型。从玻尔兹曼分布函数得出的指定的非线性变换“ TwostateFractionFolded”和“ ThreestateFractionBound”分别将能量与折叠和结合分子的比例相关联(见图2a和4e,F)。拟合神经网络的目标(输出)数据包括所有突变顺序的野生型和AA替代变体的适应性评分。使用“ max_interaction_order”选项指定了模型中的一阶和二阶(成对能量耦合)模型系数。

  在模型培训期间,所有突变顺序的随机AA替换变体中有30%,其中20%代表验证数据,10%代表测试数据。验证数据用于评估训练进度并优化超参数(批量大小)。将最佳的超参数定义为在100个训练时期后导致最小验证损失的最小验证损失。测试数据用于评估最终模型性能。

  Mochi使用随机梯度下降来优化神经网络的参数θ,基于损耗函数,基于平均绝对误差的加权和正则化形式:

  其中yn和σn分别是观察到的适应性得分和相关的标准误差,对于变体N,ŷN是预测的健身评分,n为批次大小,λ2是L2正则惩罚。为了惩罚非常大的自由能变化(通常与极端健身得分有关),我们将λ2设置为10-6,代表光正则化。平均绝对误差通过适应性误差()的倒数来加权,以使较不自信估计的健身得分对损失的贡献。此外,为了捕获适应性估计的不确定性,训练数据被每个变体的适应性误差分布中的随机样本代替。验证和测试数据未改变。

  使用默认设置对模型进行了培训,也就是说,使用ADAM优化算法最多1,000个时期,初始学习率为0.05(图书馆1除外,我们使用的初始学习率为0.005)。如果与前十个时期相比,Mochi在最近的十个时期没有改善验证损失,则将学习率成倍降低(γ= 0.98)。同样,如果最近十个时期的野生型自由能项稳定(标准偏差≤10-3),则Mochi会尽早停止模型训练。

  自由能直接从模型参数计算,如下所示:ΔGB=θbrt和ΔGF=θFRT,其中t = 303 k,r = 0.001987 kcal kcal kcal k -1 mol -1。我们使用蒙特卡洛模拟方法估算了模型提取的自由能的置信区间。使用以下数据的数据计算了十个单独的模型拟合之间的可推断自由能变化的可变性:(1)独立的随机训练 - 验证 - 检验拆分和(2)来自其潜在误差分布的独立适应性估计的独立随机样本。自信的推断自由能的变化定义为具有蒙特卡洛模拟衍生的95%置信区间<1 kcal mol-1。补充表5包含来自所有二阶模型的推断结合和折叠自由能的变化以及能量耦合。

  我们构建了一个线性模型,以预测12个特征的能量耦合强度(能量耦合项的绝对值)(见图3E),包括蛋白质结构中残留对或其位置的五个距离指标:骨架距离:骨架距离(骨架距离距离距离距离距离距residues (0, 1 or both residues in the pair with RSASA < 0.25), number of binding interface residues (0, 1 or both with minimal side-chain heavy-atom distance to the ligand < 5 Å), number of beta-sheet residues (0, 1 or both in beta strands) and seven features describing the number of chemical bonds or interactions between the atoms of pairs of residues as calculated using the GetContacts software工具(https://getContacts.github.io/):骨干到主链氢键,侧链到骨干氢键,侧链到侧链氢键,Pi-cation相互作用,Pi-cation-stacking相互作用,盐桥相互作用,盐桥相互作用和Van der waals相互作用。在运行GetContacts之前,我们使用Pymol填充缺失的氢(“ H_ADD”命令),FOLDX53在54位置恢复了在参考晶体结构(PDB:2VWF;“ positionScan”命令)中突变的位置54的野生型脯氨酸,并删除了GAB2 Ligand Atoms。训练数据集包括从库1推断出的能量耦合,并且测试集包括从库3中独立推断的能量耦合(见图3F)。

  有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。

左文资讯声明:未经许可,不得转载。