野生和驯化大麦的结构变化

2025-06-23 16:33来源:本站

  从选定的加入(补充表1和7)中播种的16厘米直径的盆中播种了25种种子。植物在温室条件下生长,白天,卤素人工21°C在晚上持续16小时和18°C,持续8小时。从7天大的幼苗收集叶子(8 g),用液氮地磨碎至细粉,并储存在-80°C下。

  从粉末中纯化了高分子重量(HMW)DNA,本质上是所述56。简而言之,将核分离,用蛋白酶K消化并用SDS裂解。在这里,使用合成头发的标准水彩刷(8尺寸)重新降低细胞核进行消化和裂解。如所述56,使用苯酚 - 氯仿提取和乙醇沉淀纯化HMW DNA。随后,将HMW DNA溶解在50 mL TE(pH 8.0)中,并通过添加5 ml乙酸钠(pH 5.2)和100 mL冰冷的乙醇来沉淀。悬浮液通过缓慢的圆形运动混合,导致形成白色沉淀物(HMW DNA),该悬浮液使用宽孔5 mL移液器尖端收集,并将30 s转移到含有5 mL 75%乙醇的管中。洗涤重复了两次。使用宽孔尖端将HMW DNA转移到2 mL管中,该尖端用聚苯乙烯刮刀收集,在新鲜的2 mL管中气干,并溶解在500 µL 10 mM Tris-Cl(pH 8.0)中。为了进行定量,使用了量子DSDNA高灵敏度测定试剂盒(Thermo Fisher Scientific)。使用FEMTO脉冲系统和基因组DNA 165 kb试剂盒(Agilent)记录DNA尺寸profile。在典型的实验中,用于文库制备的HMW DNA尺寸峰值的峰值约为165 kb。

  为了将HMW DNA碎裂成20 kb的片段,使用了Megaruptor 3设备(速度:30)(DIAGONODE)。根据制造商的说明,为每种大麦基因型和SMRTBELL Express模板准备套件(Pacific Biosciences)制备了至少两个HIFI SMRTBELL库。根据标准制造商协议,最终的HIFI库是使用Sageelf System具有0.75%琼脂糖凝胶盒(Sage Sciences)的Sageelf System的尺寸选择的(窄尺寸范围:18–21 KB)。

  HIFI圆形共识测序​​(CCS)读取是通过按照制造商的说明操作PACBIO续集IIE仪器(太平洋生物科学)来生成的。根据基因型,对大约4个8M SMRT细胞(平均产率:24千兆为hifi CCS每8M智能细胞)进行了测序,以获得约20倍的近似单倍体基因组覆盖率。在典型的实验中,板上HIFI文库的浓度为80-95 pm。我们使用了30小时的电影时间,2小时的预延伸和测序化学v.2.0。使用CCS4算法(https://github.com/pacificbiosciences/ccs)处理所得的原始数据。

  原位HI-C图书馆是根据先前发表的协议13的1周大麦芽幼苗制备的。根据制造商的说明,生成了Bowman,Aizu6,Golden Melon和10TJ18的Dovetail Omni-C数据(https://dovetailgenomics.com/products/omni-cproducts/omni-cproduct-page/)。如前所述57,58进行测序和HI-C原始数据处理。

  使用HIFIASM组装PACBIO HIFI读取(V.0.11-R302)59。伪分子的结构是用Tritex Pipeline60完成的。通过手动检查HI-C接触矩阵确定嵌合重叠群和方向误差。使用Merqury(V.1.3)61评估了基因组完整性和共识精度。用Merqury和Findgse(V.1.94)62评估了重复和杂合的水平。此外,我们估计了HIFI中使用K-MER方法读取的杂合性。我们从Genebank基因组研究中选择了35,202个BI-平行性SNP3。对于每个SNP,我们从SNP位置提取了侧翼序列(±15 bp),然后将任何一个SNP放在中间,以获得31-MER,以进行参考和替代等位基因。可从https://bitbucket.org/ipkdg/het_estimation获得K-MER的FASTA序列。我们使用BBDUK(https://jgi.doe.gov/data-anda-and-tools/software-tools/software-tools/bbbtools/bb-tools-user-guide/bbduk-guide/)使用bbduk(https://jgi.gov/data.gov/data.gov/data--guide/bbduk-guide/)来计算这些K-MER的出现。Cenotype调用和杂合性估计是在R中完成的。完整的工作流可从https://bitbucket.org/ipkdg/het_estimation获得。

  通过BBDUK在基因组区域中过滤31-MER(BBMAP_37.93,https://jgi.gov/data-anda-anda-anda-anda-anda--tool-tools/software-tquare-tools/bbbtools),通过过滤31-MER进行了31-MER来鉴定每个染色体水平组装中的单拷贝区域。BBMAP用于计数每个基因组中的K-MER发生与参数–Mincount 2。然后,基于K-MER计数,将BBDUK掩盖了非唯一的基因组区域(即至少两次出现的K-MER的区域)。使用BedTools(v.2.29.2)63检索了以床格式提取的单拷贝区域及其序列(带有“床的补充”)。使用MMSEQS2(多数序列搜索)64聚类单副序列,该序列具有“ - 簇模式”的参数,并设置超过95%的序列身份。选择每个集群中的代表(群集中最大的代表)来估计pangenome大小。

  全基因组重新陈述了总共1,000名PGR和315个精英大麦品种(补充表6)。在IPK Gatersleben的Illumina Novaseq 6000上准备了Illumina Nextera库并在Illumina Novaseq 6000上进行了测序(补充表6)。

  用minimap2(v.2.20)65,将每个pangenome组件与后者作用为对齐查询或参考,将每个pangenome组件与MOREXV3组件对齐,将每个pangenome组件与MOREXV3组件排列在一起,将每个pangenome组件对齐,则倒数基因组对齐,其中每个互惠基因组比对的相互对准(V.2.2.20)65。从结果的两个比对表中,通过组装(V.1.2.1)66调用indels,并且仅在两个比对中选择缺失,以将相对于Morex参考基因组而转换为存在/不存在的变体。此外,用Syri67扫描了平衡的重排(反转,易位)。要调用SNP,使用castadapt(v.3.3)68对原始测序读数进行修剪,并使用miniMAP2(v.2.20)65对齐与Morexv3参考基因组对齐。将最终的对齐方式与NovoSort(V.3.09.01)(http://www.novocraft.com)进行分类。BCFTools(v.1.9)69用于调用SNP和Short Indels。使用具有混合线性模型和估计的亲属矩阵的默认参数,在Gemma(V.0.98.1)70中进行了全基因组关联研究。在每个登录中的每个复合基因座上计算读取深度。使用MiniMAP2(参考文献71)将原始的HIFI读数对齐与各自的基因组,并使用Mosdepth(V.0.2.6)72计算每个基因座的中间深度。

  每对SNP之间的连锁不平衡(伦敦体内和染色体互色体)都被计算为在参考文献1附加文件1中提出的逐个定量认同(IBD)矩阵分数之间的平方Pearson乘积相关性。73(https://datadryad.org/stash/dataset/doi:10.5061/dryad.36rm1)。连锁不平衡图是由参考文献中的遗传图上的SAS Proc模板和Sgrender(SAS Institute)创建的。18。

  First, 10 µg of DNA in 130 µl was sheared in tubes (Covaris microTUBE AFA Fiber Pre-Slit Snap Cap) to an average size of approximately 250 bp using a Covaris S220 focused-ultrasonicator (peak incidence power: 175 W, duty factor: 10%; cycles per burst: 200; time: 180 s) according to standard manufacturer protocols (Covaris).使用Bluepippin设备和带有内部R2标记(Sage Sciences)的1.5%琼脂糖盒(Sage Sciences)进行剪切的DNA缩小尺寸选择。使用在260 bp处的紧密尺寸设置用于纯化200–300 bp的狭窄范围(典型的产率:1-3 µg)。根据制造商的协议(Roche Diagnostics),使用Roche Kapa Hyper Prep套件,使用尺寸选择的DNA用于制备无PCR全基因组测序(WGS)库。总共提供了10-12个文库,并提供了独特的条形码,以等摩尔浓度汇总,并根据标准方案(Roche Diagnostics)使用KAPA库定量套件对Illumina平台进行定量PCR进行定量。使用四个S4 XP FlowCells和IPK Gatersleben的Illumina Novaseq 6000系统(Illumina)对池进行测序(2×151 bp,配对末端)。

  原始读取是根据索引序列消除的,并使用fastuniq74从测序数据中删除了重复的读取。使用bbmap(v.37.28)75的bbmerge.sh根据重叠的重叠合并了read1和read2序列。使用BFC(V.181)76对合并读数进行了错误校正。通过错误校正的合并读数用作MiniA3(v.3.2.0)77的输入,将读取为具有以下参数的读数,即-no-bulge-remaval -no-tip-tip-tip-tip-tip-removal -no-ec-ec-removal -no-ec-ec-emoval -out-out-out-compress-out-compress-compress 9-debloom原始原始。如Minia3手册中所述,将MiniA3源组装在一起以使K-MER大小最高512。迭代MINIA3随着GATB Minia Pipeline(https://github.com/gatb/gatb/gatb/gatb/gatb/gatb/gatb/gatb/gatb/gatb-minia-pipeline,100、150、200、250和300)的增加(100、150、200、250和300)运行。在第一次迭代中,使用50的K-MER大小用于将输入读数组装成单位。在接下来的运行中,输入读取以及上一个迭代的组装被用作Minia3汇编器的输入。使用BUSCO(v.3.0.2)对BUSCO分析进行了与Embryophyta_odb9 DataSet14进行的分析。此外,将来自MOREX V3参考9的高信心基因模型与重叠群组件对齐,以评估完整性,其参数大于或等于90%的查询覆盖范围,并且大于或等于97%的身份。

  Pseudo-fastq配对末端读数(覆盖范围)是由76个带有fastq_generator(https://github.com/johanzi/fastq_generator)的76个pangenome组件生成的,并与MOREXV3参考基因组序列组合在一起,使用Minimap2(V.2.24-R.2.24-R.65)。使用bcftools78 v.1.9与命令“ mpileup -q 20 -q20 -q20 -excl -flags 3332”一起使用SNP与短阅读数据(补充表6)一起调用。为了绘制栽培大麦的多样性空间,将结果变体矩阵与参考文献的19,778个驯化的bar融合在一起。3(基因分型逐序(GBS)数据)。丢弃了超过20%或超过20%的杂合呼叫的SNP。主成分分析是使用SmartPCA79 v.7.2.1进行的。为了代表野生巴利的多样性,我们使用了该分类单元8,54的412个加入的已发表的GB和WGS数据。使用命令“ mpileup -q 20 -q20”使用bcftools78(v.1.9)完成了对GBS数据的变体。所得变体基质被过滤如下:(1)仅保留双重性SNP位点;(2)如果它们的读取深度大于或等于2且小于或等于50,则保留纯合基因型调用,否则将其设置为缺失;(3)如果两个等位基因的读取深度大于或等于2,则保留杂合基因型调用,否则将其设置为缺失。丢弃了超过20%的缺失,超过20%的杂合呼叫或次要等位基因频率的SNP。主成分分析是使用SmartPCA79 v.7.2.1进行的。使用Plink2(v.2.00a3.3lm,Ref。80)计算成对遗传距离的矩阵,并用于用Fneighbor(http://emboss.toulouse.toulouse.toulouse.inra.inra.fr/cgi-bin/emboss/emboss/emboss/emboss/ersossept8)构造一棵邻居的树。用互动树(Itol)82可视化树。

  如上所述(“多样性空间中的pangenome接口”),将Pangenome组件映射到MOREXV3。使用Samtools78 v.1.16.1计算读取深度。如果基因型调用受到少于两个读数的支持,则将失踪。使用piink2(v.2.000a3.3lm,参考文献80)在1 MB Windows(Shift:0.5 MB)中使用使用命令' - 样本' - 样本 - -DIFF计数 - 仅计数-COLS-COLS = IBS0,IBS1,IBS1'计算IBS。在比较中,两种配件之一中的窗户在不到200 kb的范围内都丢失了两倍。窗口中的差异(d)的数量计算为IBS0+IBS1/2,其中IBS0是纯合差异的数量和杂合差异的ibs1的数量。将该距离通过公式D/I×1 MB进行了归一化的覆盖范围,在该比较中,我的大小是在两个加入中覆盖的区域的大小,至少具有两倍的覆盖范围。在每个窗口中,我们根据覆盖范围归一化的IBS距离确定了PGRS和品种面板中最接近的pangenome登录。仅考虑覆盖范围较低的窗户,只有少于10%的窗户缺失,留下了899个PGR和264个品种。

  用R包GPLOT2绘制了与最接近的Pangenome登录的距离,以确定相似性的阈值(扩展数据图2D)。

  国际大麦泛美转录组联盟提供了基于转录循证的基因组注释的数据,并在其他地方提供了样本制备和测序的详细描述。83。简而言之,用于大麦pangenome8的第一个测序的20种基因型用于转录组测序。为每种基因型采样了五个单独的组织。这些是:胚胎(包括中核基和精确根),幼苗芽,幼苗根,花序和狂欢。从每种组织类型中取样了三个生物学重复,总计330个样品。四个样本失败了质量控制,被排除在外。

  Novogene进行了链特异性DUTP RNA-SEQ库和Illumina配对150 bp测序的准备。此外,使用IPK Gatersleben的PACBIO续集IIE Sequencer进行了PACBIO ISO-SEQ测序。为此,通过从所有五个组织中复制的单个复制量汇总相等数量的RNA来获得每个基因型的单个样品。每个样品在单个8M SMRT细胞上进行测序。

  结构基因注释是通过将从头呼叫和基于同源性的方法与RNA-SEQ,ISO-SEQ和蛋白质数据集相结合的(扩展数据图3A)来完成的。使用从表达数据得出的证据,首先使用Star84(v.2.7.8a)映射RNA -Seq数据,然后通过StringTie85(v.2.1.5,参数-M 150 -T -F 0.3)组装成转录本。Triticeae protein sequences from available public datasets (UniProt86, https://www.uniprot.org, 10 May 2016) were aligned against the genome sequence using GenomeThreader87 (v​​.1.7.1; arguments -startcodon -finalstopcodon -species rice -gcmincoverage 70 -prseedlength 7 -prhdist 4).使用GMAP88(V.2018-07-04)将ISO-SEQ数据集对齐与基因组组件对齐。使用CuffCompare89(v.2.2.2.1)合并了来自RNA-Seq,ISO-Seq和对齐蛋白序列的所有组装转录本,然后与StringTie(V.2.1.5,参数-Merge -M150)合并到候选成绩单中。transdecoder(V.5.5.0; http://transdecoder.github.io)用于识别潜在的ORF并预测候选转录本中的蛋白质序列。

  最初使用Augustus90(v.3.3.3)进行了注释。Genemark91(v.4.35)还用于进一步改善结构基因注释。为了避免潜在的过度预测,我们使用上述RNA-seq,蛋白质和ISO-SEQ数据集生成了指示提示,如前所述。通过在RNA-Seq和ISO-Seq的全面支持的情况下生成一组基因模型来建立大麦的特定模型。在发布的协议92之后,奥古斯都接受了培训和优化。使用EvidenceModeller93(v.1.1.1)连接了所有结构基因注释,并根据输入来源进行调整权重:基于同源性(10)的输入来源:Ab Initif(Augustus:5,Genemark:2)。此外,运行两轮PASA94(V.2.4.1),以使用上述ISO-SEQ数据集识别未翻译区域和同工型。

  我们使用BLASTP95(NCBI -BLAST -2.3.0+,参数-max_target_seqs 1 -evalue 1E – 05)来比较潜在的蛋白质序列与信任的一组参考蛋白(Uniprot Magnoliophyta(Uniprot Magnoliophyta),审查/Swissprot,审查/swissprot,在8月3日在2016年8月3日下载;这种将候选者分为完整的有效基因,非编码转录本,假基因和TES。此外,我们还使用了PTREP(发行19; http://botserv2.uzh.ch/kelldata/kelldata/trep-db/index.html),这是一个假设蛋白的数据库,其中包含含有的氨基酸序列,其中在许多情况下在许多情况下都清除了内部帧速率。此步骤对于鉴定DNA水平没有显着相似性的发散TE特别有用。从三个数据库中的每个数据库中选择了每种预测蛋白质的最佳命中。仅考虑以低于10×10-10的电子价值命中。此外,使用AHRD管道(https://github.com/groupschoof/ahrd)进行了所有预测蛋白序列的功能注释。

  蛋白质进一步分为两个置信度类别:高和低。高于80%的受试者覆盖率(用于蛋白质参考)或查询覆盖率(转座数据库)的命中被认为是重要的,并且使用以下标准将蛋白质序列分为高信任:蛋白质序列是完整的,并且在Unimag数据库中具有超过阈值的主题和查询覆盖率,或者在Unipoa和unipoa和unipoa和prepep中没有爆炸式命中。低信心蛋白序列不完整,并且在Unimag或Unipoa数据库中受到打击,但在PTREP中没有受到打击。另外,它在unimag,unipoa或ptrep中没有命中,但是蛋白质序列已完成。在第二个完善步骤中,AHRD评分为3*的低信心蛋白被提升为高信心。

  其余56种大麦基因型的基因含量是根据上述20种大麦基因型的基于证据的基因注释的高信任基因的投影来建模的。该方法与先前描述的方法8相似并构建。为了减少计算负载,通过CD-HIT96聚集了20个大麦注释的760,078个高信心基因,需要100%的蛋白质序列相似性和四个氨基酸的最大尺寸差异。随后将所得的223,182个源基因用于所有下游投影作为基于证据的注释的非冗余转录集代表。对于每个来源,其最大可达到的分数是通过使用针线释放算法的全球蛋白质自我调整来确定的,该算法分别在Biopython97 v.1.8中实现,Blosum62替换Matrix98分别为0.5和10.0的gap开放和扩展惩罚。

  接下来,我们使用MiniMAP2(参考文献65)对每个大麦基因组序列进行了调查,其中包括“ -ax剪接:HQ”和“ -UF”,以用于源转录的基因组匹配。每场比赛都由其成对蛋白质对齐与触发匹配的源序列进行评分。仅与开始和停止密码子的完整匹配,并保留了大于或等于源自分数的0.85的分数(见上文)。源模型通过降低置信质量分为四个箱:有或没有PFAM结构域,质体和转座相关的基因。从最高到最低的四个品质进行了逐步进行预测。在每个质量组中,如果匹配项不与任何先前插入的编码区域插入的模型重叠,则将匹配添加到预计的注释中。插入顺序从顶部到最低得分匹配。此外,我们通过其标识符跟踪每个源的插入数量。对于这两个顶级质量类别,我们进行了两轮预测,首先仅插入每个来源一次,仅一次弹出一次,然后允许一个源插入预计的注释中多次。为了巩固对任何可能错过的基因的20个基于证据的初始注释,我们使用了一种相同的方法,但插入了从以前的基于RNA-SEQ的注释开始的任何非重叠匹配。在GitHub存储库(https://github.com/georghaberer/gene_proctions/tree/tree/main/main/panhordeum)上提供了投影工作流,参数和代码的详细说明。投影方案的概述可以在存储库的父目录中找到。由于复杂的基因座包含许多假基因,因此BlastN99搜索了基因座,以获取与注释基因同源的序列,但在注释基因集中不存在。如果伪基覆盖了至少80%的基因同源物,则可以接受。

  使用Orthofinder100 v.2.5.5(标准参数)计算了从76个注释大麦基因型的主要蛋白质序列(标准参数)计算的系统发育猪。用于计算核心/壳基因的脚本已存放在存储库中https://github.com/pgsb-hmgu/bpgv2中。比较中包含的所有76种大麦基因型中的核心猪至少包含一个基因模型。壳猪包含来自至少两种大麦基因型和最多75种大麦基因型的基因模型。未包含在任何HOG(“单例”)或仅来自同一基因型的基因的基因被定义为云基因。Genespace101用于确定所有76种基因型的染色体之间的同步关系。

  使用PGSB Transposon Library102的Redat_9.7_triticeae部分,将带有表达数据的20个带有表达数据的大麦饰品用于转座子。VMATCH(http://www.vmatch.de)用作匹配工具,具有以下参数:身份> = 70%,最小命中长度为75 bp,幼苗12 bp(vmmatch -d -d -d -d -d -d -d -d -d -p -l 75 -nidentity -nidentity 70 -sentity 70 -seedlength 12 -exdrop 12 -exdrop 5 -qmask -mask -match Mack -Match Match -Match Match Match Match -Match Match Match Match Mack -Match Match Match Match Match)。所有20份配件的百分比约为84%,几乎相同。

  全长的长时间重复返回跨座子候选元素被带有LTRHARVEST103的结构标志,然后使用Ltrdigest104检测到76个大麦饰品中的每一个。这两个程序都包含在Genometools87(http://github.com/genometools/genometools,v.1.5.10)中。ltrharvest在指定参数内识别长末端重复序列和目标位点重复,而Ltrdigest则用于确定息肉素段和底漆结合位点。需要在每个组件上运行trnascan-se-1.3(参考文献105),事先创建了需要作为引物绑定位点的输入的传输RNA库。ltrharvest的参数设置为:‘-overlaps最好的种子30 -minlenltr 100 -maxlenltr 2000 -mindistltr 3000 -mindistltr 3000 -maxdistltr 25000 -Miminar 85 -mintsd 4 -mintsd 4 -maxtsd 20 -maxtsd 20 -motif tgca -motif tgca -motifmis 1-motifmis 1-motifmis 1- vic 60 -vic 60 -sd -ins -3-- 3-3-- 3-3-3-3-2-2-2-2-2-2-2-2-2-2-2-2-longoutput’;对于ltrdigest:‘-pptlen 8 30 -uboxlen 3 30 -pptradius 30 -pbsalilen 10 30 -pbsoffset 0 10 -pbstrnaOffset 0 30-pbsmaxedist 1 -pbsradius 30'。每个长时间重复返回跨座子实例的插入年龄是根据其5'和3'长末端重复序列的差异计算的,使用1.3×10-8的随机突变速率(参考文献106)。

  使用Migraph19 V.0.20-R559构建基因组图。其他图形施工工具(PGGB107,Minigraph-Cactus108)事实证明,对于这种大小和复杂性的基因组来说,计算效果非常高,并结合了本研究中使用的大量加入。Minigraph不支持小型变体(小于50 bp),因此图形复杂性低于其他工具。然而,即使有了Minigraph,整个基因组水平的图形结构也是计算上的过度,因此必须针对每个染色体分别计算图形,从而排除了染色体易位的检测。

  使用Morex V3汇编9作为参考启动图形结构。按照与Morex的差异差异,将其余的组件依次添加到图中。使用GFATOOLS气泡(V.0.5-R250-Dirty,https://github.com/lh3/gfatools)在每次迭代后调用SVS。在图形构造之后,使用启用“ - all”选项的Minigraph映射到所有配件的输入序列,该选项启用了“ - 呼叫”选项,该选项通过每个登录的图形生成一条路径。使用Migraph的Mgutils.js实用脚本合并了所得的床格式文件,以将其转换为P线,然后与专有RGFA格式(https://github.com/lh3/gfatools/gfatools/gfatools/blob/blob/master/master/master/doc/doc/doc/doc/rgfa.md)中的Migraph的主要输出结合使用。然后,使用VG Toolkit109 V.1.46.0'Altamura’的“转换”命令将图从RGFA格式转换为GFA格式(https://github.com/gfa-spec/gfa-pec/gfa-spec/gfa-spec/gfa-spec/gfa-spec/gfa-spec/gfa-spec/gfa-spec/gfa-spec/gfa-spec/gfa-spec/gfa-spec/gfa-spec/gfa-spec/gfa-spec/gfa-spec/gfa-spec/gfa-spec/gfa-com/gfa格此步骤确保图形与更广泛的图形处理工具兼容,其中大多数都需要GFA格式作为输入。然后,使用VG组合将染色体级别的图连接到全基因组图中。使用VG索引和VG GBWT(VG Toolkit109的两个组件)对组合图进行了索引。

  使用VG统计数据计算全基因组图的一般统计数据。使用ODGI TOOLKIT110 V.0.8.2-0-G8715C55的堆命令计算出图生长,然后使用其companion脚本heaps_fit.r绘制。后者还计算了伽玛的值,伽马的值是堆定律的坡度系数,该定律允许将Pangenome图分类为开放或封闭的pangenomes,也就是说,关于添加更多加入是否会增加Pangenome111的大小是否会预测。

  SV统计数据是根据将最后一行在图表中添加后生成的最终床文件计算的。根据Minigraph自定义输出格式,使用自定义外壳脚本对变体进行分类。这允许提取简单的,即非嵌套的Indels(相对于Morexv3图形链链),也可以提取简单的反转。其余的SV属于“复杂”类别,在这种类别中,可能存在多种层次的不同变体类型的嵌套,这进一步排除了更细粒度的分类。为了计算与组装中的SV重叠,使用自定义脚本从这两组中提取变异坐标,然后使用BedTools Intersect63根据空间重叠为70%来计算其交叉点。

  为了阐明基于图的参考对短阅读映射的影响,我们从欧洲核苷酸档案中的五个大麦样品(扩展数据图4B)中获得了WGS Illumina读取,并使用VG Giraffe112将其映射到整个基因组图上。为了与映射读取为线性单基因组参考的标准方法进行比较,我们将相同的读取与BWA MEM113 V.0.7.17-R1188映射到Morexv3参考基因组序列组件9。分别使用VG109 Stats和SamTools78 Stats(v.1.9)计算映射统计数据。

  为了阐明工具偏差是映射之间比较的混杂因素,我们首先使用gfatools gfa2fa(https://github.com/lh3/gfatools)生成了pangenome图的线性化版本,然后从所有五个插件中绘制了WGS读取本次数,以便使用本新的参考序列,以前使用BED bef for besv。Morex V3参考序列。这允许在单个品种参考序列和pangenome序列之间进行更合适的比较,而不会受到所使用工具(BWA/长颈鹿)之间算法差异的影响。使用sambamba114过滤映射,以保留零匹配的读数。对于图形映射,使用了GAM文件的VG Stats输出的“总完美”统计量。

  为了研究pangenome图中的SRH1路径,我们首先将所有节点从图中提取到FASTA文件中,然后使用CV中鉴定的增强剂区域。Barke与长发SRH1表型(CHR5H:496,182,748-496,187,020)相关,作为对节点的爆炸搜索中的查询。这恢复了五个节点,其身份百分比大于98%。然后,我们使用节点标识符从VG Toolkit V.1.56.0(参考文献109)中使用VG查找(参考文献109)(参考文献109)(带有五个步骤的五个步骤)。然后使用ODGI工具包V.0.8.3-26-GBC7742ED(参考文献110)的ODGI绘制子图。

  对于来自Core800收集的基因型样品,我们首先确定了一组四个样品,每个样品都用短发或长头发表型,从一组Core800样品中随机挑选,这些样品都共享了相同的WGS读取深度(5×)。这些样品为HOR_1102,HOR_17654,HO​​R_4065,HOR_1264,HOR_14704,HOR_7629,HOR_17678和HOR_11406。然后,我们使用VG Giraffe112映射了他们的Illumina WGS读取到完整的Pangenome图,并用VG Chunk109提取了映射的子图。然后使用VG Pack和VG调用CV对子图进行了基因分型。Barke作为参考登录,遵循参考文献中提出的方法。115。使用一个简单的GREP命令,带有带有BARKE序列的五个节点的标识符的vcf文件中的变体,如上所述。此处使用的脚本可在https://github.com/mb47/minigraph-barley/tree/main/main/scripts/srh1_analysis中找到。

  从MOREXV3基因组序列组装中提取了存在于MLA基因座的32个基因的坐标和序列9。为了在76个基因组中的每个基因组中找到相应的位置和复制号,我们使用了BLAST95(-perc_identity:90,-word_size:11,所有其他参数设置为默认值)。完美保守的等位基因的预期爆炸结果是,由于内含子的内含子和另一个片段(Exon_2)为820 bp的长片段(Exon_1)为2,015 bp,其间隔约为1,000 bp。为了检测副本的数量,如果两个不同的爆炸段在1.1 kb之内,则将合并单个基因的第一个爆炸结果。然后,只有找到输入的总长度,这才被计为副本。为了分析所有76个加入之间的结构变化,在BPM Gene Horvu.morex.r3.1HG0004540开始的区域中绘制了非过滤的爆炸结果,该区域均为-20,000和+500,000碱基对,该区域被用作锚固剂(所有76条线中均以锚固型;补充图5和6)。为了检测不同的MLA等位基因,使用了爆炸的三个不同阈值:100、99和98。

  我们使用了参考文献中开发的管道。27在参考基因组中对长核能区域(此后,复杂区域)进行序列 - 反应鉴定,然后鉴定出具有统计趋势在复杂区域内的基因家族。该管道假定候选长,重复的区域将包含在KB尺度长度范围内局部重复序列的浓度升高。我们首先使用lastz116(v.1.04.03;参数:' - notransition-step = 500- gapped')。出于实用性,这是在2个MB块中进行的,其重叠为200 kb,并且合并了多个窗口中确定的任何重叠的复杂区域。对于每个窗口,我们忽略了微不足道的端到端对齐,而在其余的对齐中,我们只保留了超过5 kb的那些,并完全落入一个和另一个的200 kb之内。通过计算沿染色体的长度以1 kb间隔的“询问点”计算,在染色体上计算一个比对“密度”,这是一个比对密度分数,这仅仅是任何过滤的比对等式的所有长度的总和。在这些询问点上计算了高斯内核密度(带宽10 kb),并由其得分加权。为了允许窗口之间的可比性,通过窗口中的分数总和将询问点密度标准化。密度超过最小密度阈值的询问点的运行被标记为复杂区域。对这些区域进行了一些少量调整(重叠区域的合并,并修剪末端坐标以确保伸展运动始终以重复序列开始和结束)产生了最终的复杂区域及其在MOREXV3基因组组件中的位置的表达式列表(补充表8)。该方法是在R中实现的 使用软件包数据。表。使用蛋白质簇距离截止量为0.5,每个长,可重复的区域中的基因与Uclust117(v.11,默认参数)聚集,并且对于每个群集,根据MOREXV3基因antotation9最频繁的功能描述为群集的功能描述。使用LastZ116(V.1.04.03;设置' - - self-notransition-glappapped -nochain -nochain -gfextend--gfextend-step = 50')进行了表征进化变异性(补充图7)的自我对准。

  对于基因重复的分子测定,我们使用了高达4 kb的片段,在复杂基因座中启动重复基因上游的1 kb。因此,我们认为仅使用没有选择压力的基因间序列,因此每个位置每个位置的中性速率为1.3×10-8的中性速率。然后将各个复合物基因座的所有重复基因的上游序列与来自浮雕封装81的程序水对齐(从Ubuntu存储库中获得,https://ubuntu.com)。这是针对所有大麦添加剂的所有基因副本完成的,这些副本都发现了多个基因副本。按照先前所述的118,使用每个位置的替代率为1.3×10-8替代,进行了成对比对的分子定型。

  AMY1_1基因复制Horvu.morex.proj.6HG00545380用于针对所有76个基因组组件的爆炸。提取具有超过95%身份的全长序列,并用于进一步分析。使用CD-HIT96在100%身份以100%的聚类来鉴定唯一序列,并使用MAFFT119 v.7.490对齐。收集了基因组DNA,编码序列(CD)和相应蛋白水平的AMY1_1基因拷贝之间的序列变体,并使用R120 v.4.2.2汇总了每个基因型组装中每个基因型组装中的AMY1_1单倍型(即拷贝的组合)。Barke特定的SNP基因座(GGCGCCAGGCATGATCGGGTGGTGGCCCAAGGCGGTGACCTTCGTGGACAACCACCACGACGACGCGCTCCCACGCAGCAGCACATGCCCTTCCTTCCTTCTGACA [A/G] GGtcatgcagggatatgcgcgtacatactcacgcaccagggggcaggcatgcatgcatgcatgatgtcgtcgtcgtccaatcaatcaatcacatcacatcatccaattccaattttttttttttttttttttttcgttctcatcataa))对于AMY1_1单倍型群集Prothap3(补充表21),并用于KASP标记开发(LGC BioSearch Technologies)。

  基于简历的基因组注释。提取了AMY1_1基因复制Horvu.morex.proj.6HG00545440的Morex,15个基因序列。使用NCBI-BLAST95(BLASTN,WORD_SIZE为11和百分比的身份),将31个基因与76个基因组组件进行比较,而其他参数为默认值)。Alignment plots were generated from the BLAST result coordinates by scaling on the basis of the mid-point between HORVU.MOREX.r3.6HG0617300/HORVU.MOREX.PROJ.6HG00545250 and HORVU.MOREX.r3.6HG0617710/HORVU.MOREX.PROJ.6HG00545670.使用R120绘制了该中点周围区域(±1 MB)的所有爆炸。

  用Dneasy Plant Mini试剂盒(Qiagen)提取从1周龄的Morex幼苗叶片中的基因组DNA。在MOREXV3基因组序列组装9的基础上,使用Primer3(参考文献121)(https://primer3.ut.ee/)设计AMY1_1全长拷贝特异性引物:6F:GTAGCAGCAGTGCAGTGCAGCAGCGGTGAAGTC;80f:agacatcgttaaccacacatgc;82f:gtttctcgtccctttgccttaa;82f:gtttctcgtccctttgccttaa;33r:gatctggatcgaaggagggc;79r:tcatacatgggaccagatcgag;80R:acgtcaagtagtaggtagccc。所有正向引物都用桥序列(在引物名称之前)[AMC6] GCAGTCGAACATGTAGCTGACTCAGGGTCAC,而反向引物则标记了[AMC6] TGGATCACTTGTGTGTGCAAGCAGCATCATCACATCGTAG允许将其允许将其退伍到Barododing Primers。这些桥梁序列标记的基因特异性引物彼此成对使用,靶向1-2份3-6 KB AMY1_1基因,包括上游和下游500-1000 bp区域:T6F+T33R,T6F+T6F+T79R,T6F+T79R,T80F+​​T80F+​​T80R和T80R和T82F+T82F+T80R。进行了两步PCR方案。使用2μLDMSO,0.3μlQ5聚合酶(新England Biolabs),1μLAMY1_1特异性引物对(每个10μM),2μLGDNA,2μLGDNA,0.5μLDNTP(10 mm)DNTP(10 mm)(10 mm)(10 mm)(10 mm)(10 mm)(10 mm)(10 mm)(10 mm)(5 mm),Q5 fuffffuff fuffere第一步PCR反应在25μl体积中制备。PCR程序如下:在98°C/1分钟下初始变性,然后在98°C/30 s,58°C/30 s和72°C/3 min的25-28个周期中进行延伸,最终延伸步骤为72°C/2 min。使用1μL的第一PCR产物与DNA模板,条形码引物(Pacific Biosciences)和PCR程序还原为20个周期,以相同的方式制备了第二个PCR步骤(条形码PCR)。质量检查1%琼脂糖凝胶后,将所有条形码的PCR产物混合并用Ampure PB(Pacific Biosciences)纯化。SMRT Bell库的准备和测序是在BGI Tech Solutions上进行的。使用SMRT link V.10.2分析了测序数据。为了最大程度地减少PCR嵌合噪声,首先为每个分子构建CCSS。第二, 长扩增子分析是根据从50 bp Windows跨越所有CCS长度的峰位置的子读物进行的。每个AMY1_1的最终共识序列是借助琼脂糖凝胶成像的尺寸估计来确定的。

  在扩展的AMY1_1群集区域(Morexv3 Chr6H:516,385,490–490-517,116,415 bp)中,在1,315个PGR和精英品种中分析了SNP单倍型。从下游分析中删除了分析线和小于0.01的次要等位基因频率中缺少20%数据的SNP。使用VCFTOOLS122将数据转换为0、1和2格式,并使用PheatMap软件包(https://cran.r-project.org/web/web/packages/pheatmap/pheatmap/pheatmap.pdf)聚类样品。顺序聚类方法用于实现所需的分离。在每个步骤中,选择了两个极端簇,然后将来自每个群集的样品分别聚类。重复该过程,直到基于视觉检查实现所需的分离。

  K-MER(K = 21)是使用Morex Amy1_1基因家族成员保守的区域生成的,使用水母123 v.2.2.2.10。在Morex V3基因组组装中删除了AMY1_1以外的其他区域的K-MERS之后,使用SEAL(BBTOOLS,https://jgi.gov/data--gov/data-anda-anda-anda-tha--tools/software-tware-tware-tools/software-tools/software-tools/software-tools/soft warpeals/softers/softers/soft toce 6)在Illumina Raw Reads(补充表6)中计数K-Mers。将所有K-MER计数归一化为每个MOREXV3基因组的计数,并且AMY1_1拷贝数估计为R。

  Estimation ability was validated by comparing copy number from pangenome assemblies and short-read sequencing data (Extended Data Fig. 8c). For 1,000 PGRs, countries (with at least 10 accessions) were colour-shaded on the basis of their proportions of accessions with amy1_1 copy number greater than 5 on a world map using the R package maptools (https://cran.r-project.org/web/packages/maptools/index.html).

  To construct a network from SNP haplotypes, all 371 amy1_1 copies (except ORF 89, 90 and 93; Supplementary Table 14) were aligned using MAFFT119 v.7.490. Median-joining haplotype networks were generated using PopART124 with an epsilon value of 0.

  The coordinates of amy1_1 copies in 76 genome assemblies were obtained by BLAST searches with the Morex allele of HORVU.MOREX.PROJ.6HG00545380. The genomic intervals surrounding amy1_1 from 10 kb upstream of the first copy to 10 kb downstream of the last copy were extracted from corresponding assemblies and used for further analyses. We applied PGGB (v.0.4.0, https://github.com/pangenome/pggb) for 76 amy1_1 sequences with parameters ‘-n 76 -t 20 -p 90 -s 1000 -N’. The graph was visualized using Bandage125 (v.0.8.1). ODGI (v.0.7.3, command ‘paths’)110 was used to get a sparse distance matrix for paths with the parameter ‘-d’. The resultant distance matrix was plotted with the R package pheatmap (https://cran.r-project.org/web/packages/pheatmap/pheatmap.pdf). Six representative sequences of amy1_1 were aligned against Morex by BLAST+ (v.2.13.0)99.

  添加剂菜单的α-淀粉酶AMY1_1的已发表的蛋白质结构与伪四糖acarbose(PDB:1BG9;参考文献42)相关,用于模拟大麦辅助量的Morex,Barke和RGT Planet中鉴定出的氨基酸变体的结构上下文。这项研究中使用的菜单和Morex参考副本Amy1_1 horvu.Morex.proj.6HG00545380的晶体化AMY1_1蛋白的氨基酸序列是相同的。使用Pymol 2.5.5(Schrödinger)可视化蛋白质。通过引入Morex,Barke和RGT行星基因组组件中鉴定的氨基酸变体,使用Dynagut2 Weberver126来预测蛋白质稳定性和动力学的变化。

  具有不同AMY1_1单倍型的NIL是从RGT行星之间的十字架中得出的。基因座。共开发了四个AMY_1_1 -BARKE NIL(PROTHAP3)和一个AMY1_1 – Morex nil(Prothap0),并针对RGT Planet(Prothap4)重复进行了测试。植物在16/8-H的光/深色周期下在18°C的温室中生长。每一代都使用前景和背景分子标记来帮助植物选择。将各自的BC2S1植物与大麦光泽15k阵列(SGS Institut Fresenius,特征基因鉴定部分,德国)进行基因分型,并成熟到成熟。收集谷物并在连续几年的各个位置(丹麦NørreAaby;林肯,新西兰;法国莫勒)进一步传播。使用WinterSteiger Elite Plot组合器收集和阈值,并使用Pfeuffer SLN3样品清洁剂(Pfeuffer)按大小(阈值,2.5毫米)进行分类。

  Non-dormant barley samples of RGT Planet and respective NILs with different amy1_1 haplotypes (50 g each, graded greater than 2.5 mm) were micro-malted in perforated stainless-steel boxes. The barley samples were steeped at 15 °C by submersion of the boxes in water. Steeping took place for 6 h on day one, 3 h on day two and 1 h on day three, followed by air rests, to reach 35%, 40% and 45% water content, respectively. The actual water uptake of individual samples was determined as the weight difference between initial water content, measured with a Foss 1241 NIT instrument, and the sample weight after surface water removal. During air rest, metal beakers were placed into a germination box at 15 °C. Following the last steep, the barley samples were germinated for 3 d at 15 °C. Finally, barley samples were kiln-dried in an MMK Curio kiln (Curio Group) using a two-step ramping profile. The first ramping step started at a set point of 27 °C with a linear ramping at 2 °C h−1 to the breakpoint at 55 °C using 100% fresh air. The second linear ramping was at 4 °C h−1, reaching a maximum at 85 °C. This temperature was kept constant for 90 min using 50% air recirculation. The kilned samples were then deculmed using a manual root removal system (Wissenschaftliche Station für Brauerei). α-Amylase activity was measured using the Ceralpha method (Ceralpha Method MR-CAAR4, Megazyme) modified for Gallery Plus Beermaster (Thermo Fisher Scientific).

  如上一节中所述,对样品(每个50 g,分级大于2.5 mm)进行微磨损。在微磨碎过程中,将晶粒在24小时,48 h和72 h时采样。首先在-80°C下冷冻干燥,然后在室温下铣削。使用Spectrum植物总RNA试剂盒(Sigma Aldrich)从20–200 mg面粉中分离总RNA,并在发布的方案下使用RNA清洁和浓缩剂(Zymo Research)清洁127。为了进行RNA-seq分析,准备了库,并按照参考文献中所述的长度为75 bp进行单端测序。127。使用Kallisto128(V.0.48.0)和100个引导程序将基因表达定量为每百万(TPM)的转录本。

  对从发育阶段的大麦尖峰收集的Rachillae进行了倍性评估129大约Waddington 9.0。一旦分离出来,用50%乙醇/10%乙酸固定rachillae 16小时,然后用1 µM DAPI染色,在50 mM磷酸盐缓冲液(pH 7.2)中,补充了0.05%Triton X100。用Zeiss LSM780共聚焦激光扫描显微镜分析探针,使用×20 NA 0.8物镜,变焦4和图像尺寸512×512像素。使用405 nm激光线与405-475 nm的带通滤波器可视化DAPI。将针孔设置为确保在一次扫描中测量整个核。用Zen Black(Zeiss)软件测量核的尺寸和荧光强度。为了进行数据归一化,将表皮适当的小圆核用于2C(二倍体)校准。

  如先前所述,通过扫描电子显微镜进行样品制备和记录。简而言之,将样品固定在4°C的50 mm磷酸盐缓冲液(pH 7.2)中,其中包含2%V/V戊二醛和2%V/V甲醛。用蒸馏水和脱水在上升乙醇系列中洗涤后,在Bal-Tec关键点烘干机(Leica Microsystems,https://www.leica-microsystems.com)中对样品进行关键点干燥。干燥的样品附着在碳涂的铝样品块上,并在Edwards S150B溅射凸台(Edwards High Valacuum,http://www.edwardsvacuum.com)中涂成金。在5 kV加速电压下,在Zeiss Gemini30扫描电子显微镜(Carl Zeiss,https://www.zeiss.de)中检查了探针。图像被数字记录。

  使用大型“ Morex” X“ Barke” F8重组近交系(RIL)种群的GBS数据进行初始连锁映射47(欧洲核苷酸档案项目PRJEB14130)。The GBS data of 163 RILs, phenotyped for rachilla hair in the F11 generation, and the two parental genotypes were extracted from the variant matrix using VCFtools122 and filtered as described previously3 for a minimum depth of sequencing to accept heterozygous and homozygous calls of 4 and 6, respectively, a minimum mapping quality score of the SNPs of 30, a minimal fraction of纯合呼叫为30%,丢失25%的丢失数据的最大分数。使用MSTMAP算法和Kosambi映射函数使用R软件包ASMAP131构建链接图,迫使链接组根据物理染色体拆分。使用Scanone函数的二进制模型使用R/QTL133进行链接映射,并具有期望最大化方法134。计算出1,000个排列的显着性阈值,间隔是由1次差的对数确定的。确认F8 RIL基因型和F11 RIL表型之间的一致性,三个PCR等位基因竞争性延伸(PACE)标记通过3CR生物学上的无需分析的polymorphisme and polymorpers(使用Polymorphismss)(使用Polymorphismss)(使用Polymphiss Specties(PACE)标记(PACE)标记(PACE)。如前所述135进行了基因分型。为了减少SRH1间隔,通过Illumina WGS对22个重组F8 RIL进行了测序,在MOREXV3参考基因组序列组装中映射了测序读数,称为SNP。SRH1间隔的侧翼SNP的100 bp区域以及候选基因Horvu.morex.R3.5HG0492730的序列与使用BLASTN99的Pangenome组件进行了比较,以识别相应的坐标并提取相应的间隔。基因序列与肌肉5对齐(参考文献136)。通过LastZ116 v.1.04.03评估间隔之间的结构变化。使用浮雕6.5.7工具fuzznuc进行了主题搜索。

  Guide RNA (gRNA) target motifs in the ‘Golden Promise’ HvSrh1 candidate gene HORVU.GOLDEN_PROMISE.PROJ.5HG00440000.1 were selected by using the online tool WU-CRISPR137 to induce translational frameshift mutations by insertion/deletion of nucleotides leading to loss-of-function of the gene.在HVSRH1候选基因中选择了一对目标基序(GRNA1A:gacaagacgaaggccgcgcgc; grna1b:gacaagacgaaggccgcggcgg)在HVSRH1候选基因内选择在编码序列的上半年中的位置,并根据其位置的位置和二维最小自由能量结构的单一认识单grnas单grnas。(NNNNNNNNNNNNNNNNNNNNGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUU) as modelled by the RNAfold WebServer138 and validated as suggested in ref.139。使用模块化级联向量系统(https://doi.org/10.15488/13200)克隆含GRNA的转换向量。将GRNA特异性序列排序为DNA寡核苷酸(补充表25),具有特异性的悬垂物,用于基于BSAI的克隆,将其携带的GRNA模块向量载有由Triticum Aestivum aestivum u6启动子驱动的GRNA模块。由Zea Mays多泛素1(Zmubi1)启动子驱动的GRNA和CAS9模块的金门组件是根据级联方案进行的,以生成中间矢量PHP21。为了生成二进制矢量PHP22,将GRNA和CAS9表达单元使用SFII克隆到通用矢量140 P6I-2X35S-TE9中,该VECTOR140 P6I-2X35S-TE9在其转移DNA中携带了HPT基因,以控制植物选择。如前所述,农杆菌介导的DNA转移到春季大麦黄金的未成熟胚胎中进行了141。简而言之,从授粉后12-14 d切除未成熟的胚胎,并与携带Php22的农杆菌菌株AGL1共培养48小时。然后,在选择性条件下使用Timentin和Hygromycin,将外植体在选择性条件下进行进一步的愈伤组织形成, 随后是植物再生。HPT-和Cas9特异性PCR(补充表25中的引物序列)证实了在再生植物园中的T-DNA的存在。通过PCR扩增靶区域(补充表25中的引物序列),然后在LGC基因组中进行Sanger测序,从而鉴定了原发性突变植物(M1生成)。序列色谱图中的双峰或多个峰围绕靶标的原始序列 - 粘液性基序的Cas9裂解位点开始,被认为是嵌合和/或杂合突变体的指示。突变植物在温室中种植,直到成熟谷物形成。M2植物在速度繁殖条件下在气候室内生长(在22°C下的22 h光,在19°C下暗2小时,改编自参考文献142),并通过上述PCR扩增子的Sanger测序对基因分型进行了基因分型。M2晶粒进行表型。

  我们在简历中构建了一个查找库。如参考文献中所述,“ Etincel”(6行冬季麦芽大麦; Secobra恢复)。50。简而言之,我们通过在0.3 mm Nan3在pH 3.0在pH 3.0在20°C下在20°C下在0.3 mm Nan3中孵育2.5 kg在8°C下在8°C下在8°C下诱导突变,并连续施用氧气。用水彻底洗涤后,将谷物在通风罩中驱动48小时。在丹麦NørreAaby的田野中播种了诱变的谷物,并使用Wintersteiger Elite Plot Combiner批量收集。在接下来的一代中,在林肯,新西兰的田野中播种了2.5千克的谷物,并进行了手工收获和阈值的大约300种植物。铣削了一个代表性的样品,占每个池的25%(RETSCH GM200),并通过LGC基因组学从25 g面粉中提取DNA。

  如参考文献中所述,筛选了发现的“ Etincel”库。50使用单个测定法隔离SRH1P63S变体(IDNO。CB-FINDIT-HV-014)。Forward primer 5′ AATCCTGCAGTCCTTGG 3′, reverse primer 5′ GAGGAGAAGAAGGAGCC 3′, mutant probe 5′6-FAM/CGTGGACGT/ZEN/CGACG/3’IABkFQ/wild-type probe/5′SUN/ACGTGGGCG/ZEN/TCGA/3′IABkFQ/ (Integrated DNA技术)。

  基因分型,包括从冻干叶片材料中提取DNA,是通过特征基因进行的。SRH1P63S突变体,相应的野生型“ Etincel”和Srh1 Pangenome辅助Morex,RGT Planet,HOR 13942,HOR 9043和HOR 21599被基因分型,用于背景确认。使用R包StringDist144(V.0.9.8),将个体的成对遗传距离计算为其平均距离的平均值143。主坐标分析是根据此遗传距离矩阵的R120(V.4.0.2)基本函数CMDSCALE进行的。前两个主要组件由GGPLOT2(https://ggplot2.tidyverse.org)说明。

  SRH1P63S变体和“ Etincel”的GDNA是从1周龄的幼苗叶(Dneasy,Plant Mini Kit,Qiagen)中提取的。Genomic DNA fragments for sequencing were amplified by PCR using gene-specific primers (forward primer 5′ TTGCACGATTCAAATGTGGT 3′, reverse primer 5′ TCACCGGGATCTCTCTGAAT 3′) and Taq DNA Polymerase (NEB) for 35 cycles (initial denaturation at 94 °C/3 min followed by 35 cycles of94°C/45 s,55°C/60 s和72°C/60 s的延伸,最后的延伸步骤为72°C/10分钟)。根据制造商的说明,使用Nucleospin凝胶和PCR清理套件(Macherey-Nagel)纯化PCR产品。使用基因特异性测序引物(5'Agaacggagagagagagagaaagaag 3')在德国Eurofins基因组学上进行了Sanger测序。

  来自两个对比组的Rachilla组织,Morex(Short)和Barke(Long),Bowman(Long)和BW-NIL-SRH1(短),用于RNA-Seq。从rachilla头发启动(Waddington 8.0)和伸长率(Waddington 9.5)阶段从各个基因型的中央尖峰收集了rachilla组织。使用Trizol试剂(Invitrogen)然后进行2-丙醇沉淀提取总RNA。用DNase I(NEB,M0303L)去除基因组DNA残基。高通量配对末端测序是在Novogene(英国剑桥)使用Illumina Novaseq 6000 PE150平台进行的。用Trimmomatic145(v.0.39)修剪了RNA-Seq读数,用于适配序列,MOREXV3基因组注释被用作用Kallisto128的估计读取丰度的参考。将原始读数计数标准化为TPM表达水平。

  在Rachilla头发伸长阶段(Waddington 9.5)的纵向切片(Waddington 9.5)中,用HVSRH1感应和反义探针(124 bp)进行了原位杂交。如前所述进行原位杂交,并进行了少量修改。

  有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。

左文资讯声明:未经许可,不得转载。