2025-06-23 19:39来源:本站
获得了人类受试者的研究批准(Witwatersrand人类研究伦理学(医学)委员会清除证书M170880,M2210108),并且在每个研究中心也获得了伦理批准。从参与者那里获得了所有收集样本的知情同意。为每个参与者提供了以英语或翻译成本地语言的信息表和同意文件。参与者有机会与面试官讨论问题,而无法阅读或写作的参与者与证人大声朗读文件31。斯坦福大学的机构审查委员会认为,转移到斯坦福大学的被取消识别数据并不构成人类学科的研究,因此不需要在Witwatersrand大学获得的人类学科研究批准之外获得进一步的道德批准。
每个学习中心在AWI-GEN 1和AWI-GEN 2期间招募前进行了培训前参与,并适应当地背景,以与社区成员互动,并讨论与研究相关的反馈和关注点。例如,在南非Dimamo,研究前参与涉及与部落领导人,社区咨询团队和社区代表会面。在加纳的纳瓦伦戈,社区参与团队访问了各个研究社区的酋长和长老,并向他们告知了他们拟议的研究,并随后在Awi-Gen 1面前聚会了社区敏感性,与更多的酋长,长老和研究社区的人一起。由于持续的Covid-19疫情,社区Durbar被排除在Awi-Gen 2之外。在肯尼亚内罗毕,社区参与团队与社区咨询委员会成员,乡村长者,社区卫生志愿者和AWI-GEN研究参与者举行了几次咨询会议,此前和之后。乡村长者和社区卫生志愿者对于动员无法通过电话接触的研究参与者至关重要。参与者的问题与如何使用血液和粪便样本以及为何将研究集中在女性上有关。如果在招募和样本收集期间有显着的健康问题28(例如高血压),则参与者被转介到其临床医疗保健服务基础设施中。这些机制和过程因资源和当地环境而异,各个国家 /地区以及一个国家 /地区的地点都不同。
纳入标准包括先前参与AWI-GEN 1研究28,并继续参与AWI-GEN 2研究。这项AWI-GEN 2微生物组研究是对AWI-GEN 2更年期研究的一项伴侣研究,因此只有对女性自我认同的参与者进行了微生物组子研究的调查。由于野外工作的混音,少数男人被招募。鉴于这些人群的本质,我们没有在下游分析中完全排除男性的样本。相反,男性的样本被排除在现场比较和疾病关联之外,但在对基因组新颖性进行编目时包括。从总体AWI-GEN 2参与者池中选择了参与者,并采取了额外的措施,以确保个人在更年期状态和高血压方面的横断面。有关扩展招聘细节,请参见补充方法。
在所有研究地点中都实施了一种统一的粪便样品收集方法,以确保温度相等的暴露和处理所有样品的处理。在索韦托,内罗毕和纳米罗,参与者来中央访谈和生物标志物收藏。为参与者提供了在同一天收集的粪便样品收集套件,或者在接下来的几天从家里或从中央地点收集。在Navrongo,Dimamo和Agincourt学习中心,参与者在他们的家中参观了访谈和生物标志物收集。参与者的表型数据和调查信息存储在基于南非,布基纳法索和加纳的RedCap服务器中(V.9至V.13,在研究过程中定期更新)。为参与者提供了一个粪便样品收集套件,可在他们的家中使用,该套件是由野外工作人员在24小时内收集的。
每个参与者使用Omnigene Gut OMR-200 Collection套件(DNA Genotek)自收集了单个粪便样品。该保存套件在各种环境温度上保持DNA完整性和分类学组成81,包括在每个研究地点全年经历的温度。立即在研究中心冷冻样品,然后集体将冷冻到南非约翰内斯堡的中央实验室,在那里它们被解冻,将其等分为Cryovials并存储在-80°C下。在获得必要的进口和进口许可后,将所有样品在一次干冰上运送到美国,以进行下游加工。再次将样品解冻以检索等分试样以进行DNA提取。我们先前进行了分析,以确保存储和运输条件不会显着影响测得的微生物组成81。总而言之,这种方法最大程度地减少了所有与研究地点相吻合的技术混杂因素,并且我们预计会影响样品组成的任何其他站点级别的方法论变化。作为较大的AWI-GEN 2项目的一部分收集了参与者的元数据,包括年龄,人口统计信息,健康史和血液生物标志物,其方法类似于AWI-GEN 1中使用的方法(参考文献31)。
同时提取所有粪便样品,以最大程度地减少批处理效果。根据制造商的说明,使用Qiaamp PowerFecal Pro DNA试剂盒(Qiagen,CatalogNo。51804)从样品中提取DNA。在30 Hz时进行珠跳动10分钟,然后使用TissuelySer II(Qiagen,CatalogNo。85300)使用2 ml管固定器(QIAGEN,QIAGEN,CATALOGNO。11993)旋转10分钟的珠子跳动,并旋转10分钟。使用Dropsense 96平台(Trinean,CatalogNo。10100096)通过分光光度计来定量DNA浓度。每批96个样品的提取批次包括一个水毛坯作为阴性对照,一个模拟社区等分试样(Zymo Research,CatalogNo。D6300)作为阳性对照。
所有文库均在同一设施中同时制备,并在几个流动池中同时对其进行测序。使用5400 Fragment Analyzer系统(Agilent,CatalogNO。M5312AA)在文库制备之前对样品进行浓度,完整性和纯度评估。根据制造商的说明,使用NEB Ultra II试剂盒(NEB,E7645L)制备宏基因组库。使用定量聚合酶链反应对文库浓度进行定量,并使用2100生物分析仪(Agilent,Agilent,CatalogNo。G2939BA)分析片段长度分布。合并库,并使用Novaseq 6000平台(Illumina,CatalogNo。20012850)生成2×150个基本对读数。
使用HTStream Superduper v.1.3.3对元基因组读数进行了重复,使用Trimgalore v.0.6.7进行修剪,最低质量得分为30,最低读取长度为60。读取与人类基因组的HG38一致的读取,使用BWA V.0.7.7.7.7.7.7.82(Ref)删除。使用Motus v.3.0.3(参考文献83)对宏基因组读数进行分类,并使用GTDB_V207映射文件作为Motus数据库的一部分分配给GTDB84种。
鉴于在我们的组装方法中观察到的先前未知的细菌分类单元的数量(请参见下文),我们旨在通过将我们的组装细菌基因组包括到MOTUS数据库中来更好地表征分类学组成。为此,我们使用https://github.com/motu-tool/motus-extender/下的脚本扩展了Motus数据库。简而言之,使用fetchmg v.1.2(参考文献85)在所有高质量组装基因组中鉴定了标记基因。然后将这些基因与Motus数据库v.3.0.3中的基因聚集在一起。所得的扩展数据库包含662个新的基因组簇,并减少了几乎所有样品的未分配读数的比例。特别是在Nanoro和Navrongo的样品中,新的基因组簇具有相对丰度的很大一部分(扩展数据图3)。对于GTDB级分析,将我们组装的基因组的GTDB-TK分类添加到GTDB_V207映射文件中。除非另有说明,否则此处显示的所有分析均基于扩展的Motus数据库。
所有样品均用于元基因组组装和新功能发现(n = 1,820)。来自男性的样本,一个具有潜在标签不匹配的样本以及人类读取百分比的样本(人类读取的百分比超过或等于70%,n = 4个样本)被排除在基于分类的分析和现场比较之外,留下1,796个样本进行其他分析。
广泛的参与者数据是作为AWI-GEN研究的一部分收集的,包括人口统计学,民族语言,家庭组成,妊娠,认知,脆弱,家庭便利,药物使用,一般健康,饮食,感染史,心脏代谢疾病和体育活动信息。参与者还提供血液,尿液和粪便样品,并对各种指标进行了超声,血压,血液和尿液测试。并非所有参与者都可以使用所有数据,并且一些参与者提供了粪便样本进行微生物组分析,但没有完成其他测试或问卷。在微生物组研究分析时,并非所有参与者数据都通过质量控制。在微生物组研究中,总共有59个变量可用作协变量。
在使用微生物组分析中使用协变量数据之前,我们首先将协变量数据集算变为我们期望最有意义的变量,以避免不必要的多重肢体测试测试和衡量因变量之间的关联。首先,我们删除了绝大多数丢失数据的变量,不包括有100个或更少参与者的条目的变量(例如,几个超声测量值)。其次,我们过滤了没有足够独特值的变量(例如,只有一组)。最后,我们排除了带有熵的变量(用Invotheo软件包v.1.2.0.1(rRef。86)在R中的变量小于0.2,以避免参与者中太均匀的变量(例如,分别为10和12例)。
为了计算协变量与协变量与微生物组组成之间的关联之间的相关性,我们根据有序因子水平将非数字协变量转化为数值。例如,更年期协变量的值从绝经前变为1,从绝经期到2,从绝经后到3个。大多数协变量是二进制的(例如,益生菌可以包含该值是或否),并且在此过程中将其转换为1(YES)和2(对于否)。二进制变量的完整列表是:关节炎,糖尿病状况,糖尿病治疗,高血压状况,高血压治疗,农药,大量工作,工作,周末工作,HIV药物,HIV状态,HIV状态,牛,其他牲畜,饮用水,家具,家具,冰箱,冰箱,厕所,de虫治疗,de虫治疗,de虫治疗,毒品,毒品,毒品,毒品,毒品,毒品,毒品,毒品,毒品,毒品,毒品,毒品,毒品,毒品。描述时间的变量(驱虫期,益生菌期,抗生素和腹泻最后一次)是根据固定的订购的,并在lastweek <lastsixmonths in lastsixmonths <inslastyears <inslastersear <inslastttwoyears <inslasttwoyears <inslasttwoyears <inslasttthreears <inslasttthreears <inslasttthreears <inslasttthreears <inslastthreears <inslastthreeears <长期<永远不会。就业被命令为自雇<正式时间<正式时间<非正式<失业。将现场密度订购为nanoro <navrongo <dimamo <agincourt <soweto <nairobi。
为了衡量核酸α多样性,使用纯素食包装v.2.6-4(参考文献87)可用的rrarefy功能将物种数量稀少至5,000。稀疏后,用α多样性测量为反辛普森指数,将核丰富度测量为相对丰度大于或等于稀疏后1×10-4的物种数量)。
使用Veggan87的VEGDIST函数和LABDSV R软件包v.2.1-0(参考文献88)中的VEGDIST函数在Bray-Curtis距离上计算β多样性。为了评估协变量解释的方差量,我们通过素食主义者的DBRDA功能进行了基于距离的冗余分析。以迭代方式,将解释最高差异的协变量添加到模型公式中。为了减少高度相关的协变量的冗余,将所有可用的协变量转化为数值(使用序数因子,只要适用),并计算了协变量之间的Pearson相关性。在高度相关的协变量(Pearson'sR≥0.8)的情况下,为迭代模型选择了解释核中核组成的差异较高的协变量(扩展数据图5)。
核物种流行率定义为在研究地点中个体的比例,在研究地点发现给定物种的相对丰度超过或等于1×10-4。单个分类单元站点之间的差异是使用广义倍数更改计算的89。简而言之,普遍的折叠变化不是分布之间的中位数(50%分位数),而是多个分位数处两个分布之间差异的平均值,因此也可以在低阳性分类单元中解决差异。图3D显示了位点之间的广义折叠变化超过所有原核生物中所有成对位点比较的90%分数的分类单元的数量。
这些分析的样品数量(图1和相关的补充剂)分布在不同的位点:Nanoro,n = 382;navrongo,n = 218;Dimamo,n = 201;Agincourt,n = 532;Soweto,n = 226;内罗毕,n = 237。
所有样品(n = 1,820),包括男性参与者的样本,包括在宏基组装分析中(Nanoro,n = 384; navrongo,n = 235; Dimamo,n = 203; agincourt; agincourt; agincourt; agincourt; agincourt,n = 533; soweto; soweto,soweto,n = 226; nairobi; nairobi; nairobi; nairobi,n = 239)。使用Megahit v.1.2.9(参考文献90)组装宏基因组学读数,并使用Quast V.5.2.0(参考文献91)评估组装质量。使用metabat v.2.5(参考文献92),Concotct v.1.1.0(Ref。93)和Maxbin v.2.2.7(参考文献94)将元基因组组件归纳为草稿基因组,并随后使用DAS工具V.1.1.1.1.6(Ref .95)进行了调整和汇总。使用CheckM V.1.2.2(参考文献96)评估bin质量。为了创建一个解倍化的基因组集,使用DREP v.3.4.3(参考文献97)对MAG进行了磁盘,仅包括最低检查完整性的基因组50%,最大检查污染物为5%。In dereplication, we implemented a primary clustering threshold (-pa) of 0.9 and secondary alignment threshold (-sa) of 0.95, requiring minimum overlap between genomes (-nc) of 0.3, using multiround primary clustering (--multiround_primary_clustering) and greedy secondary clustering with fastANI v.1.33 (ref. 98)(-greedy_secondary_clustering,-s_algorithm fastAni)降低了解码大基因组集的计算复杂性。为了进行删除,使用评分标准选择集群代表,其中包括1个完成重量(-COMW),污染重量(-conw)为5,N50重量(-n50W)为0.5,尺寸重量(-sizeW)为0,中心性重量(-centw)为0。基因组滤光片和得分量和得分。基因组滤光片和标准标准使用了标准标准50。最终的基因组集是分类分类的,并使用GTDB-TK v.2.3.0(参考99)使用GTDB R214目录和默认参数将其放置在树上。使用Itol V.6(参考文献100)可视化系统发育树。比较了使用DREP v.3.4.3的UHGG v.2.0.1代表将其降解的原核基因组集比较,其参数与上述相同的参数。
使用浪子v.2.6.3(参考文献101)(参数-c -p meta)排除部分基因,从每个中等质量和高质量的原核基因组中预测蛋白质编码基因。使用MMSEQS V.14.7E284(参考文献102)连续聚集了推定的蛋白质,在目标覆盖模式(-COV模式1)和贪婪的次级聚类(-cluster Mode 2)的Linclust命令中,在100%和95%氨基酸身份(-cluster-Mode 2)中为0.8,在目标覆盖模式下为0.8。使用MMSEQS V.14.7E284与UHGP95 v.2.0.1蛋白进行比较95%的身份蛋白集,并认为在80%的UHGG蛋白质上共享95%氨基酸身份的蛋白被认为与UHGP集匹配。
通过将完整的参与者集或特定地点的参与者组合到100个迭代中的一个范围的个体(1-1,500)中,确定了先前未知的原核基因组和蛋白质的建模积累,并在100次迭代中取代了蛋白质基因组群集或蛋白质簇的数量,以参与者的参与者来为参与者中。
与外部宏基因组研究(扩展数据图7)的比较使用了相同的管道来读取预处理,组装和嵌套,但Carter et al.43除出版了MAG目录外。使用与上述相同的参数,对UHGG,AWI-GEN 2和外部元基因组研究的所有基因组进行了解码。
在消除之前,我们评估了我们基因组目录中的一组T. succinifaciens mag。为了鉴定琥珀氏菌基因组,我们选择了所有基因组,其完整性超过90%,污染少于5%,这些基因组落入了二次群集,其中GTDB-TK分类为treponema_d succinifaciens的二级群集,在我们的消失的基因组中(n = 244)。用Bakta V.1.8.2(参考文献103)注释编码序列。在这里定义为至少80%的基因组中的基因的核心基因被识别为3.12.0(参考文献104)。
从UHGG50下载了公共T. succinifaciens基因组,其完整性超过90%,污染少于5%,Carter等人43和国家生物技术信息中心(NCBI)下载。为了构建全球系统发育树,使用Roary v.3.12.0(参考文献104)和Mafft V.7.407(参考文献105)鉴定了核心基因并将其纳入核心基因多序列对齐中。核心基因多序列比对用作FastTree v.2.1.11(参考文献106)的输入,并且在Itol v.6(参考文献100)中可视化了所得的系统发育树。使用与Hildebrand et al.107相同的方法在统计上进行了统计量化。我们根据分支长度使用Dendropy108计算所有基因组之间的成对系统发育距离,并在ADONIS2之间使用1,000个置换率(rev。87)进行了范围差异较小的phyl seption nountery severy severy seption secty的多变量分析是否在范围内较小。
来自纳米罗(Nanoro)的所有参与者和加纳(Ghana)的纳米罗(Nanoro)的所有参与者进行了琥珀氏菌(T. succinifaciens)的存在与宿主表型之间的关联。宿主表型测量包括抗生素史,人体测量值,牲畜所有权,高血压状态和所有生物标志物。使用对位点和抗生素史进行调整的线性模型对关联进行了测试,但与仅针对位点进行调整的抗生素史的关联。通过Benjamini – Hochberg程序进行了多种假设测试的校正。使用抗性基因标识符109进行抗菌抗性分析,并省略了“松散”匹配。使用DBCAN3 v.4.1.4(参考文献110)对所有高质量的MAG进行了碳水化合物活性酶(Cazyme)注释,并具有保守,高信心注释的参数。使用DBCAN3底物映射表的高级底物注释在Cazyme家族水平上进行底物注释,并根据生物学来源对底物进行分组。
噬菌体基因组从具有充满活力的V.1.2.1(参考文献111)的宏基因组组件注释,并用checkv v.1.0.1(参考文献112)确定基因组质量。使用使用BLAST 2.14.0构建的数据库(参考文献113)构建的数据库来清除每个样品中的冗余基因组,并使用具有默认参数的CheckV支持脚本以至少为95%的ANI和85%的对齐分数聚类。噬菌体丰富度被测量为去除重复基因组后每个样品的组装噬菌体基因组数量。通过使用相同的聚类参数从每个人聚类的代表性噬菌体来构建噬菌体基因组的统一目录,并将该目录与MGV v.1.0(参考文献114)投票代表性噬菌体基因组进行比较。使用基于读取的分类(扩展数据图9)使用Phanta v.1.1.0(Ref。115)使用MGV和UHGG作为参考数据库的组合进行替代噬菌体分析(图9)。用phanta测得的噬菌体丰富度定义为存在的噬菌体簇数量大于或等于10-5%的相对丰度。使用线性模型测试了跨站点的α多样性指标之间的差异,该函数使用基础R的函数来估计差异的重要性。使用与上述相同的方法对建模的原核基因组和蛋白质积累进行了相同的方法,对先前未知的噬菌体基因组进行了建模的积累。
Crassvirales和Crassphage患病率定义为分类单元相对丰度大于或等于10-5%的个体的比例。以前未知的船噬细胞被定义为长度大于200 kb的消除基因组目录中的病毒基因组,而该目录的长度大于200 kb,而没有与MGV Fotu代表聚集。我们进一步过滤了新的杂物噬细胞,仅通过包括至少五个个体中存在组装基因组的人,对任何MGV votu代表性的组合分数少于10%,以支持患病率和新颖性的证据。Bakta v.1.8.2(参考文献103)注释Jumbophage基因。使用Coverm v.0.7.0(参考文献116)测量,定义了大于0.1的覆盖阈值的读取水平的存在。
该分析包括来自阿金库特,南非,索韦托,南非和内罗毕的参与者。由于PLWH数量较少(n = 6),因此排除了来自南非Dimamo的参与者。来自纳米罗(Nanoro),布基纳法索(Burkina Faso)和加纳(Navrongo)的纳诺罗(Nanoro)的参与者被排除在外,因为由于艾滋病毒的全国患病率低,这些人群中未衡量艾滋病毒状况。该分析中总共包括848名参与者,捕获了129个PLWH和719个血清染色个体(表1和补充数据9)。来自这些站点的其余样品要么是HIV阳性的,但据报道不采用ART(n = 28,n = 22,在soweto中的n = 3,内罗毕的n = 3)。排除了缺失/不差的HIV/ART数据或低阅读计数的男性和个体。如上所述,计算了核酸α和β多样性。
我们使用Lmertest R软件包v.3.1-3(参考文献117)中实施的线性混合效应模型进行了差异丰度分析,包括位点,暴露于抗生素和腹泻作为随机效应,因为这些因素已被证明与先前分析中的微生物组成分相关。总体效应大小也通过Lmertest封装估算,并且按照上述计算每个站点内的广义倍数变化。
对于机器学习分析,我们使用SiamCat R软件包v.2.5.0(参考文献89)培训了所有数据组合和每个站点的统计模型。简而言之,使用Siamcat中的方法将相对丰度归一化。将样品分割为五倍重复的五倍跨验证(将20%的样品保留进行测试,而不包括在模型训练中),并且对于每次分裂,使用标准参数在训练折叠上训练了L1调节的Logistic回归模型。通过将每个模型应用于相应的剩余测试折叠,在交叉验证(例如,在站点中)进行模型评估。在重复序列中平均每个样品的预测,并使用Proc软件包v.1.18.2(参考文献118)计算AU-ROC。为了进行跨站点评估,将外部数据通过记录的归一化参数(冷冻归一化)进行标准化,将所有来自交叉验证的模型应用于归一化数据,并将预测再次定为AU-ROC分析。对于LOSO分析,对模型进行了培训,如来自两个站点的数据(例如Agincourt和Soweto)的数据所述,然后将其应用于左外站点(Nairobi)的数据上。
为了测试其他站点的积极预测部分,我们将模型预测校准为内部5%的假阳性率;也就是说,预测阈值5%的HIV样品被错误分类为PLWH。然后将对所有数据组合的训练的模型应用于Nanoro,Navrongo和Dimamo的数据,以量化导致预测高于阈值的样品数量。
使用Phanta产生的噬菌体相对丰度谱进行的血清神经个体(Art-Neive)和Art+的PLWH之间的血清传染性个体和Art+ PLWH之间的病毒特征比较。噬菌体丰富度的计算为噬菌体物种的数量大于或等于phanta剖面的10-5%丰度,而不是使用组装噬菌体的总数,因为Phanta丰度谱具有足够的特征,具有足够的流行率,以进行不同的丰度分析和机器学习模型。使用与上述原核生物分析相同的方法进行了差异特征分析和机器学习模型。
使用各自方法部分中指定的统计测试使用R v.4.1.2进行统计分析。在所有分析中,对基础R中的p. phjust函数中实现的Benjamini – Hochberg程序119进行了对多种假设测试的校正。使用包装GGPLOT2 V.3.4.2(参考120),Cowplot v.1.1.1(参考121),PheatMap v.1.0.12(Ref。122)和Tidyverse v.2.0.0(参考123)生成图。
这项研究的所有作者都符合作者的纳入标准,每个研究中心的研究人员都代表作者。在整个研究过程中,所有机构的研究人员都参与其中。学习中心的工作人员促进了社区参与会议,该课程确定了特定的社区问题,并确定这项研究在本地相关。在进行研究之前,在合作者之间达成了角色和责任。这项研究的作者在研究过程中为当地科学家提供了正式的能力建设基因组学研讨会(图1扩展数据),以及进一步的非正式培训。这项研究已得到当地伦理审查委员会(方法)的批准。在引用中,已经考虑了与研究中心和由当地研究人员领导的研究。
有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。