2025-06-22 09:02来源:本站
使用全基因组shot弹枪测序(补充表1)对二倍体近交系列BD21(参考文献19)进行了测序。十个最大的支架包含所有测序核苷酸的99.6%(补充表2)。将这十个支架与遗传图(补充图1)进行比较(补充图1)检测到了两个假连接,并在流式细胞术测量的范围内产生了跨越272 MB(补充表3)的五个伪分子(补充表3)的五个伪分子。通过细胞遗传学分析(补充图2)和两个物理图和测序的BAC(补充数据)来证实组装。超过98%的表达序列标签(EST)映射到序列组件,与接近完整的基因组一致(补充表4和补充图3)。与其他草相比,腕第一基因组非常紧凑,逆转录座集浓缩在丝粒和同义断点(图1)。DNA转座子和衍生物广泛分布,主要与富基因的区域相关。
我们分析了带有深光学测序的花序组织中的小RNA群体,并将其映射到基因组序列上(图2A,补充图4和补充表5)。在高重复密度的区域中,小的RNA读数最稠密,类似于拟南芥22中报道的分布。我们分别鉴定出413和198 21-和24-核苷酸分阶段干扰RNA(siRNA)基因座。使用相同的算法,在拟南芥中识别的唯一分阶基因座是八个跨作用siRNA基因座中的五个,没有一个是24-核苷酸分阶段。目前尚不清楚这些小脑线siRNA的这些木拟 - 杆菌siRNA的生物学功能,这些siRNA占据了重复区域之外的大量小型RNA。
在V1.0注释中预测了总共25,532个蛋白质编码基因位点(补充信息和补充表6)。这与大米(Rap2,28,236)23和高粱(V1.4,27,640)5的范围相同,表明在广泛的草丛中相似的基因数。使用Illumina RNA-seq数据的10.2千兆称(GB)评估基因模型(补充图5)24。总体而言,Illumina Data支持了92.7%的预测编码序列(CD)(图2B),证明了曲霉基因预测的高精度。这些基因模型可从多个数据库获得(例如http://www.brachybase.org,http://www.phytozome.net,http://www.modelcrop.org和http:///mips.org)。
在77%至84%的基因家族(根据图6定义)是在三种以臂生殖器,水稻和高粱为代表的草亚家族中共享的,这反映了相对较新的常见起源(图2C)。草特异性基因包括跨膜受体蛋白激酶,糖基转移酶,过氧化物酶和P450蛋白(补充表7B)。poooideae特异性基因集仅包含265个基因家族(补充表7C),其中包括811个基因(包括单胞菌在内的1,400个)。与随机基因相比,富含草中富含草中的基因的可能性更大,这表明串联基因扩展在草特异性基因的演化中起着重要作用(补充图7和补充表8)。
为了验证和改善V1.0基因模型,我们手动注释了来自97种不同基因家族(补充表9-11)的2,755个基因模型,与生物能和粮食作物改善有关。我们注释了参与细胞壁生物合成/修饰的866个基因和16个家庭的948个转录因子25。只有13%的基因模型需要修改,并且发现了很少的伪基,证明了V1.0注释的准确性。使用水稻,拟南芥,高粱和杨树的基因建造了62个基因家族的系统发育树。在几乎所有情况下,臂生殖器基因的分布与水稻和高粱具有相似的分布,表明腕足适用于草功能基因组学研究(补充图8和9)。对预测的分泌组的分析确定了分子和草之间细胞壁代谢基因分布的实质差异(补充表12、13和补充图10),与它们的不同细胞壁一致。信号肽概率曲线还表明,可以准确预测起始密码子(补充图11)。