2025-06-23 01:21来源:本站
成年蝴蝶在2009年至2018年之间收集,并在盐饱和二甲基磺氧化二甲基或100%乙醇中存储在-20°C下。使用QIAGEN血液和组织以及E.Z.N.A组织DNA试剂盒(Omega Bio-Tek)从蝴蝶的胸部中提取无RNA基因组DNA,并用于为33个个体准备350 bp的Illumina库,这些库是使用100-150 bp配对的端序序列在Illumina Instrument上进行测序的。确认中提供了收集和出口许可证号。我们用先前发表的序列补充了这些样品(有关示例详细信息,请参见补充表1)。
反复列出后,使用CustAdapt v.1.8.1(参考文献52)对启动适配器进行过滤,然后映射到H. Melpomene Assembly v.2.5(HMEL2.5,参考文献53)(参考文献53)(参考文献54)(参考54)(参考文献54),使用BWA-MEM V.0.7.15(参考文献55)与Default Parameters和Marks Paramersers secend section and Marking Spictare Horking and Sixping Hypring Hypring Shipt and Sypright Sives hopters and Syprist Honking Shorping Hyping Hyping Hypring H.分类映射读取,并分别使用Sambamba V.0.6.8(参考56)和Markdup模块进行了删除。使用基因组分析工具包(GATK)v.3.8 RealignerTargetCreator和IndelreRealigner模块57,58,将映射读数进一步对indels进行了重新调整,以减少indel误差的数量。读取深度和其他相关读取质量控制指标是使用QualiMap v.2.2.1(参考文献59)计算的。
基因型调用是使用BCFTools v.1.5(参考文献60)和调用模块进行的,需要最低MQ(映射质量)和20的质量(基本质量)为20。基因分型在BCFTOOL中使用多级和稀有式呼叫的呼叫(-m)进行了基因分型。为Z染色体进行了拼合的基因型调用。使用BCFTools滤波器模块过滤基因型。不变和变体位点都必须具有质量(变化呼叫的质量)≥20和MQ(均方根映射质量)≥20,单个基因型的DP(读取深度)≥8≥8≥8(Z染色体上的女性的DP≥4)和GQ(基因型质量)和GQ(Genotype质量)≥20。被重新编码为缺少数据。
通过建立系统发育网络研究了H. everatus,H。Pardalinus,H。Melpomene和其他密切相关的物种之间的关系。使用Plink v.1.9(参考文献61),对数据集进行过滤以仅包含双重核位点(不包括单例),而没有丢失数据和至少1 kb。使用Dismat.py脚本(https://github.com/simonhmartin/genomics_general)计算所有样本对之间的成对绝对遗传距离。然后使用距离矩阵使用默认参数在SplitStree v.4.15.1(参考文献63)中实现的neighbournet arch62构建系统发育网络。
我们还通过估计串联的邻居加入树来研究物种关系。在此分析中,我们将变量和不变的站点包括至少1 kb,而没有丢失的数据。使用R软件包APE v.5.7(参考文献64)“ read.dna”和“ nj”功能从个人的成对距离估算了邻居加入树。使用R软件包Phangorn v.2.11.1(参考文献65)的“中点”功能扎根树。使用R Package APE v.5.7(参考文献64)中的“ boot.phylo”功能,根据100个引导程序重复获得了引导程序支撑。
使用TWISST66(https://github.com/simonhmartin/twisst)进一步研究了三个焦点物种(H. everatus,H。pardalinus和H. Melpomene)之间基因组的族谱关系,并以Heliconius Nattereri为外面。仅考虑固定在群体中(H. nattereri)中的SNP,焦点物种中的变量和最小等位基因频率(MAF)为0.05。使用Beagle v.5.1(参考文献67)进行统计分阶段和插补,并具有默认设置。分阶段过滤数据集用于推断1,000个SNP的非重叠窗口(中位数约为23.6 kb)的非重叠窗口的系统发育,假设PHYML中的GTR替代模型(参考文献68)。计算所有系统发育的精确权重。当加权支撑为0.5或更高时,将窗口分为以下每个类别:(i)H。leveratus和H. pardalinus组在一起,但并非相互单位;(ii)H。leveratus和H. pardalinus组在一起,并相互单系;(iii)H。leveratus和H. Melpomene组在一起,但并非相互单系;(iv)H。leveratus和H. Melpomene组在一起,并相互单系。
为了推断从梅洛烯链球菌进入H. leveratus及其与H. pardalinus的分裂的时间,我们使用了BPP v.4.6.2中实施的多种凝聚 - 与内感染(MSCI)模型(参考资料22 22)(参考文献22)(A00分析)。对于这三种物种的每个物种,我们选择了四个个体来产生测序对齐。对于H. Melpomene,我们使用了秘鲁的H. Melpomene Aglaope。鉴于亚马逊人和帕达利纳斯的亚马逊人和非亚马唑人口之间的种群结构以及亚马逊两种物种之间的基因流量的证据,我们首先使用非阿马佐尼亚人口进行了这项分析(也就是说,H。Eviletusbari和H. pardalinus sergestus)。从常染色体中随机选择基因座,要求基因座长2 kb,最小距离至下一个最接近的基因座,距离最近的外显子5 kb,如H. Melpomene Assembly v.2.5。对于每个基因座,删除了超过20%的数据丢失数据和包含丢失基因型调用的站点的个体。仅考虑包含所有个体和800 bp传递过滤器的基因座。杂合站点被分配了IUPAC歧义代码。使用固定的物种树进行渗入事件(见图1E和扩展数据图1),进行了人口统计参数估计。分别将逆伽玛先验(INVG)应用于根年龄(τ0)和所有人群的有效人群大小(θ) - INVG(a = 3,b = 0.06)和INVG(a = 3,b = 0.04)。将Beta先验应用于渗入概率(J) - beta(a = 1,b = 1)。MCMC在50,000次刻录式迭代后进行了1,000,000次迭代,每10次迭代进行一次采样。
为了表征亚马逊H. pardalinus和H. leveratus之间最近基因流动的实例,我们依靠这两组之间的祖先信息SNP(等位基因频率差异≥0.8)。仅考虑了至少10 kb的祖先信息SNP。对于每个SNP,分别为H. everatus纯合子和H. pardalinus H.纯合变量分配了0和1的祖先评分,杂合子分别为0.5。然后,我们根据通过过滤器的祖先信息SNP来计算每个人的祖先(跨SNP的平均祖先)和杂合性。自定义R脚本用于可视化不同个体基因组中物种诊断SNP的基因型。使用了相同的方法来确定亚马逊河H. tevatus和H. Melpomene之间的物种诊断SNP。
我们计算了AdmixTools中的F4统计数据(参考文献69),以测量相同位置中不同物种的成对种群之间的共享漂移,而在不同位置的同一物种的成对人群之间的共享漂移。在同一地点,不同物种的种群之间的共同漂移指示物种之间的基因流动,而在不同位置,同一物种种群之间的共享漂移表示表明按物种进行分组。在此分析中,仅考虑常染色体双质SNP。标准误差通过在500 kb块上的加权块弯刀接近估计。我们还测量了所有可能的位置对之间的欧几里得地理距离,并为其与F4统计的相关性进行了架架测试。
我们使用G-phoc(参考文献70)来估计差异时间,有效的人口规模以及在物种之间和物种之间的H. everatus和H. pardalinus对之间的迁移率。在所有分析中,我们还包括一个来自外群物种(Heliconius besckei)的个体,并估算了模型参数,假设两种结个物种之间可能的双向迁移。G-Phocs使用多个独立的中性发展基因座来推断人口统计学参数。因此,我们首先定义了大于1 Mb的支架内基因组的区域,并且在梅尔泊尼组装中注释的v.2.5中注释,远离外显子至少1 kb。然后,在这些区域内,我们选择了1-kb块,这些块与最近的块相距至少10 kb,并产生了序列比对,掩盖了带有软件GCLUSTER标识的注释重复元素和CPG岛(参考文献71)。由于先前的研究报道了H. everatus和H. pardalinus之间的广泛渗入与其他Heliconius物种在围绕三个主要颜色模式基因座的基因组大区域的其他Heliconius物种,因此我们排除了含有这些基因座的染色体中的块(染色体10、15和18)。由于其不同的有效人口大小,我们还排除了Z染色体中的块。对于每次结盟,我们排除了超过60%的基因型呼叫的个人,并且只有每个人群至少有3个个体的对准(或者对少于三个人的人群中的所有个人)和至少100 bp的对准,而没有超过25%的个体缺少基因型呼叫。我们使用IUPAC代码对杂合基因型调用进行了编码。具有α= 2和β= 100的γ先验用于突变尺度的有效种群大小(θ)和两个内部群体之间的发散时间(τ),而gamma先验的α= 2和β= 50用于差异时间。对于突变的迁移率, 我们定义了γ先验,α= 0.005,β= 0.00001。该模型运行了三次,燃烧了50,000次迭代(允许对参数进行自动微调),然后进行200,000次迭代,每200个迭代进行一次采样。使用自定义脚本检查了Markov链的收敛和三个不同的重复。为了将θ和τ估计转换为绝对有效的种群大小和差异时间,我们假设平均每个场地的平均突变率(µ)为2.9×10-9替代,平均生成时间(G)为0.25年(参考文献72)。我们还使用公式:NEMAB = mab×θb/4获得有效迁移率(NEM)的估计值。
每当NM> 1时,相同种群比较的NM估计值在G-Phocs的不同重复运行之间的价值和方向性各不相同。为了研究这些差异的原因,我们使用MSMS进行了合并模拟(参考文献73)。我们考虑了与G-Phocs运行相同的人口统计场景。也就是说,在TD2处有两个姊妹人群(A和B),与TD2处的外群(C)分开,并允许A和B之间的单向或双向迁移。两个姐妹人群之间的分裂时间(TD1)之间的分裂时间设置为四百万代,而八百万代,以分为Outforup(TD2)的分裂(TD2)。考虑到两个人口的有效人口规模(NE)为100万或500万(外部群体为400,000),并且考虑了不同水平的基因流量(NM)(NM)(0.01、0.1、0.1、1.0、2.0、2.0和10.0)。对于每种情况,我们在MSMS中模拟了100棵树(参考73),我们使用SEQ-GEN V.1.3.4(参考文献74)生成了序列比对。自定义脚本用于将单倍体序列对组合到二倍体序列中,使用IUPAC代码进行杂合子位点,并将对齐方式转换为G-PHOCS序列格式。最后,我们使用与上述相同的设置为模拟数据集运行G-Phocs。每当模拟数据集中的NM> 1时,G-Phocs显示出与我们对Heliconius数据分析中所见的行为相似(补充表6)。我们认为,这种效果是由于估计种群几乎是杂乱无章的难度。因此,对于每个种群成对比较,三个重复运行中最高的NM估计值如图2B所示。
使用BPP v.4.6.2(参考文献22)中实施的多种彼此合并(MSC)方法推断出H. pardalinus和H. tevatus主要组之间的系统发育关系,同时考虑了不完全的谱系分类。三个H. p。Sergestus个体(覆盖范围最高)和来自圭亚那的三名H. leveratus个人(每个位置覆盖范围最高的人(法国圭亚那,苏里南和委内瑞拉))。对于亚马逊的H. Pardalinus和H. everatus来说,只有包括Ecuador,Bolivia和Brazil的三个地点的覆盖范围最高的个人。对于此分析,通过大于1 MB的支架内的基因组的第一个定义区域选择基因座。为了最大程度地减少链接选择的效果,在Heliconius Melpomene v.2.5(Hmel2.5,参考文献54)中,这些区域也必须从外显子中至少为2 kb。由于该分析不假定基因座之间的基因内重组和独立性,因此我们从相邻基因座中选择了100-250 bp的基因座,至少有2 kb的基因座。为所有基因座产生了序列比对,掩盖了重复元素,如参考基因组和用软件GCLUSTER鉴定的CpG岛所述(参考文献75)。对于每个基因座,将超过50%的基因型调用的个体排除在对齐中,并且仅考虑每个人群至少两个人的基因座。此外,删除了超过20%的基因型呼叫的个体,并排除了少于50 bp的过滤器的基因座。将基因座分为100个基因座的块,而染色体15染色体上的反转的基因座分为单独的块中。然后,使用A01分析(假设没有基因流动的物种树推理)在BPP v.4.6.2中进行物种树估计。将反伽玛先验(INVG)施加到根年龄(τ0)和有效的种群大小(θ) - INVG(3,0.06)和Invg(3,0.04),0.04), 分别。假设每代位置的突变速率为2.9×10-9取代,并且一代时间为0.25年(参考文献54),则对参数进行缩放。MCMC在50,000次刻录式迭代后进行了1,000,000次迭代,每10次迭代进行一次采样。使用不同的起始物种树对每个块进行了三个独立的跑步,仅考虑三个独立跑步之间的块。整个基因组中最丰富的估计树表明,这两种物种相互相对于彼此都是销育的(扩展数据图2)。我们认为,这种非税项编排是由于基因流,该基因流在模型中未考虑。
为了了解H. leveratus和H. pardalinus物种史的不同阶段基因流的流行率,我们使用FastSimCoal2 v.2.7.0.2(参考文献76),基于对现场频谱(SFS)的分析进行了人口统计学建模。为了进行此分析,我们考虑了H. tevatus和H. Pardalinus的所有亚马逊和非亚马津式人群。分析中排除了超过50%的数据丢失数据的个体,并且仅考虑了至少80%的个体(包括所有四个H.p。Sergestus)的基因分型。此外,仅考虑了至少2 kb的位点,并考虑了与外显子至少10 kb的位置,以减轻连锁不平衡和链接选择的影响。我们进一步排除了重复区域内的地点,如H. Melpomene组装HMEL2.5中的注释。通过评估三种外部物种中存在的等位基因(H),将滤波后保留的209,115个位点两极化。Besckei,Heliconius Ismenius Telchinia和Heliconius Numata Robigus。从每个群体物种中,我们选择了一个具有最高覆盖范围的个体,如果在外部物种中进行了基因分型和单态,则将祖先等位基因分配给每个部位。The unfolded multidimensional site-frequency spectrum (multiSFS) was generated using easySFS (https://github.com/isaacovercast/easySFS), using the recommended down projection approach (four individuals of H. p. sergestus; 10 northeastern group H. elevatus; and 20 H. pardalinus and 20 H. elevatus individuals from the Amazon) to maximize the number of在考虑丢失数据时隔离站点。对于每个人口统计学模型,使用FastSimcoal v.2.7(参考文献77)实现的复合样品型方法将模拟多维站点频谱与经验数据的拟合最大化。对于所有模型参数,我们使用了宽搜索范围,从中随机采样初始启动参数值。对于每个模型, 我们执行了100个独立的fastsimcoal2运行。对40个预期最大化周期进行了参数估计的优化,并使用100,000个合并模拟估算了预期的SFS。最好的拟合模型是通过Akaike信息标准确定的,考虑到每个模型的优化运行均具有最高的可能性(使用脚本https://github.com/speciationgenomics/scripts/scripts/blob/master/master/calculateaic.sh)。为了说明可能性近似中的随机性,我们通过从每个模型最有可能重复运行下估计的参数值进行100个独立运行,进一步比较了不同模型的似然分布。最后,对于最佳拟合模型,通过非参数块启动引导获得了最大似然参数估计的置信区间。为此,将209,115个地点分为100个块,并用更换进行采样。
We calculated between-population differentiation (FST) for Amazonian and non-Amazonian populations of both H. elevatus and H. pardalinus groups, in sliding windows of 25 kb (5 kb step size) along the genome using the script popgenWindows.py (https://github.com/simonhmartin/genomics_general).该脚本实现了哈德逊KST的版本(参考文献78),以避免按样本量加权核苷酸的多样性。删除了超过50%的数据的个人。只有最多两个等位基因的站点,并且考虑了至少三个具有基因型调用的人(或者考虑到少于三个人的人群中的总数)。在分析中,只有至少10%的站点通过过滤器的窗口。
为了确定H. reveratus和H. pardalinus在其中相互单位的基因组区域(即可能与物种障碍有关的基因组区域),使用TWISST66(https://githubbub.com.com/simemonsimhrist)量化了亚马逊和非阿马祖群之间的族谱关系。使用与FST相同的数据集,但也添加了五个代表性外群的人(H. Besckei,H。Ismenius,H。Numata,H。Nattereri和H. Ethilla)。使用Beagle 5.1(参考文献67)进行统计相结合和插补,并具有默认设置。仅考虑了所有群体中固定的SNP,而在MAF为0.05的Ingroup人群中只有SNP。分阶段过滤的数据集用于推断100个SNP的窗口(每25个SNP幻灯片)的邻居加入系统发育,假设PHYML中的GTR替代模型(参考文献68)。计算所有系统发育的精确权重。为了估计通过物种与地理分组组成个人的树木比例,我们考虑了五组:(i)来自圭亚那的H. leveratus(委内瑞拉,苏里南和法国圭亚那);(ii)来自亚马逊的H. leveratus;(iii)来自亚马逊的H. Pardalinus;(iv)H。p。Sergestus(Andes);(v)一个外组,H。Nattereri。因为我们假设我们从梅洛烯烯中渗入H. leveratus可能参与了后者和H. pardalinus的形态,因此进行了相同的分析,包括仅亚马逊河甲菌,亚马逊H. pardalinus和两个H. Melpomene种群(H. M. Amaryllis and H. M. Amaryllis and H. M. M. M. M. M. M. M. M. M. Agla)。通过将H. ethilla(H. tevatus和H. pardalinus的姊妹物种)作为第五人群,我们能够使家谱极化,从而确定渗入方向。
为了测试H. everatus基因组中的梅尔泊胺渗入是否与同胞H. leveratus和H. pardalinus之间的差异基因组岛有关,我们进行了Fisher的精确测试。首先,我们将差异的基因组岛定义为FST≥0.2的区域,其中Twisst恢复了H. pardalinus和H. leveratus H. everatus,为相互单位的单系(重量≥0.8)。其次,我们将其定义为渗入的基因组区域,其中Twisst将H. leveratus与H. Melpomene分组,重量≥0.8。然后,我们进行了Fisher的精确测试,如BedTools v.2.30.0(参考文献79)中实现,以测试两组基因组间隔是否重叠的重叠是否超过了参考基因组的大小。
亚马逊H.如前所述17,在秘鲁塔拉波托的室外昆虫和英国约克的加热室内昆虫中建立了agalope。通过将H. leveratus与H. pardalinus交配来产生QTL映射的十字架,以产生F1育雏,然后通过它们之间的跨越以产生F2育雏,或者将其反向交叉到父母分类群中。
来自12 H. everatus,19 H. pardalinus的翅膀的背面表面,14 H. m。使用佳能EOS D1000和X-Rite ColorChecker Mini一起在灯箱中与白色背景的轻盒中拍摄了Aglaope,348 F2和50个反向交叉混合体(补充表7)。从每张图像中,我们选择了一个前提和阻刺进行分析,将图像剪切到机翼轮廓上并在必要时翻转翅膀,以确保所有图像都相似地取向(导致两个文件;一个前孔和一个hindwing)。为了使机翼对准以使像素代表个体之间的同源单元,我们使用了图像registration80,这是一种基于回归的方法,该方法根据基于强度的相似性对齐两组机翼(源和参考)。我们使用机翼形状的PCA选择了翅膀的参考组(见下文)。对于前提(36个PC)和Hindwing(26 PC),我们在所有F2和反向交叉个体中找到了每个PC的平均值。我们将参考个体分配给了与这些平均值最小偏差的个体(在所有PC中概括)。然后,我们通过眼睛检查所有对齐。为了允许对机翼的轻微错位或损坏,我们包括了多达5%的个人缺少RGB值的像素。
在31 H.使用基于里程碑的几何形态图分析的Aglaope以及308 F2和36个反向杂交杂种(补充表7)。使用300 dpi的平板扫描仪扫描蝴蝶翅的腹侧,并将地标放置在特定的静脉相交81(20个地标)和Hindwing(15个地标(15个地标))使用TPSDIG282。使用包装GeoMorph83的Procrustes分析调整了地标坐标以进行尺寸和方向。前翼和后翼分别进行了分析。
H. leveratus(n = 12),H。Pardalinus(n = 13),H。M。Aglaope(n = 5)和F2S(n = 40)在大型飞行笼中自由飞行(5×2.5×2 m),使用GoPro Hero 4黑色摄像机以每秒239.7帧的速度以720p的分辨率为239.7帧(补充表7)。使用GoPro Studio v.2.5.9.2658对视频进行了慢动作研究。选择了一个人直飞至少五个翼击的飞行序列,以测量翼频频率(WBF)。WBF是通过计算完整的机翼节拍数量和视频帧数来衡量的。每个人从单独的飞行序列中进行了五次WBF测量,并通过将所有飞行序列的翼节拍总数除以从视频帧数量估计的总飞行时间来计算个人的平均WBF。
通过引入单个H. everatus,H。pardalinus和F2女性(分别为n = 24、32和31),进行了QTL映射的宿主植物偏好测定法,将其介于1 m(w)×2 m(l)×1.7 m(h)的笼子中,并构成了两个大约等于宿主植物(P. p. riparia和P. riparia和P. p. p. riparia)。每天结束时,记录了在每种植物物种上产卵的数量并去除卵(补充表7)。为了比较秘鲁H.植物17。每天结束时记录在每个寄主植物上产卵的鸡蛋数量。总共测试了126个女性,总共有889个卵(从35 H. elivatus雌性卵中的176个卵,288个卵,从24 H. Melpomene和425个卵,从51 H. pardalinus)。
为了分析男性对女性颜色模式的偏爱,我们介绍了H. everatus,H。Pardalinus和F2雄性(分别为n = 46、66和106),其中包括一对模型的女翼(一个H. evertus和一个H. pardalinus),以及记录的求爱事件(在参考资料中提供了完整的求爱详细信息。雄性进行单独测试,并在一天前放置在实验笼中,以允许适应。试验持续了15-30分钟。记录了针对每个模型机翼的男性的求爱数量(定义为持续的飞行5–15厘米)(补充表7)。
雄性Heliconius从其后翼androconia产生挥发性化合物的复杂化学混合物。这些混合物已被证明在其他几种Heliconius物种和一般蝴蝶中充当性信息素84,85。从13小时,10 H. pardalinus,7 H. Melpomene Malleti个体以及122 F2和17个背部杂交杂交体中,从13 H. tevatus,10 H. pardalinus,7 H. pardalinus,7 H.The extracts were analysed by gas chromatography–mass spectrometry (GC–MS), as reported previously16,86 (Supplementary Table 7) on a 7890A GC-System coupled with an MSD 5975C mass analyser (Agilent Technologies) instrument fitted with an HP-5MS column (50 m, 0.25 mm internal diameter, 0.25 µm film thickness).电离方法是电子撞击,碰撞能量为70 eV。条件如下:入口压力9.79 psi,He 20 mL min -1,注射体积1 µL。对GC进行编程如下:从50°C开始,在5°C min -1至320°C下增加,并保持该温度5分钟。载气是1.2 mL min -1。对于所有已识别的化合物,浓度是根据AMDIS Software87报道的从峰面积计算的。AMDI通过NIST数据库和TechnischeUniversitätBraunschweig的有机化学研究所编辑的其他数据库来解释每种化合物的色谱图。对未确定性和非acosanal之间运行的所有可识别化合物进行了评分。排除了潜在的污染物或外部化合物,以及整个数据集中看起来不到10次的化合物。
在制造商的标准方案之后,使用Qiagen Dneasy血液和组织试剂盒从胸部组织中提取无RNA基因组DNA。使用根据(参考文献88,使用PSTI限制酶,16个6 bp p1 p1 bar码和八个索引)修改的协议制备限制位置相关的DNA(RAD)文库。DNA被剪切到300-700 bp和凝胶尺寸中,总均匀读取了128个个体。2500(补充表8)。
使用stacks89的Process_radtag将来自每个RAD库的FASTQ文件取消编写,并且将BWA-MEM90与默认参数一起使用,将读取映射到H. Melpomene Assembly v.2.5(参考文献91)。然后将BAM文件分类并用Samtools(参考90)和Picard v.1.119(https://github.com/broadinstitute/picard)添加读取组数据和标记PCR PRPLICATES。要检查错误,请确认血统书并为家庭分配未录制的谱系的样品,我们使用Plink v.1.9(参考文献61)来估计基因组的分数,这些基因组的分数是下降(IBD;)在所有成对组合之间的样品(兄弟姐妹和父级比较的所有成对组合)之间的比较,应产生值接近0.5的值。另外,对于多次测序的样品,我们检查了从同一个体得出的样品。然后,我们使用PICARD工具中的MergesAmfiles命令合并了这些样本,并使用Samtools mpileup命令调用SNP。
使用LEP-MAP3(参考文献92)为混合和物种内部杂交构建了连锁图。在补充表8中提供了血统。首先将SNP转换为十种可能的SNP基因型中的每一种。我们使用parentCall2模块纠正错误或缺失的父母基因型,并使用log-odds差异> 2(Zlimit)和halfsibs = 1拨打性链接标记。我们使用Filtering2来删除SNP,以删除SNP,显示segregation扭曲,指定了p值限制为0.01;也就是说,随机分离标记被丢弃有1:100的机会。然后,我们使用其HMEL2.5支架将标记分为染色体。为了获得标记之间的遗传距离,我们将标记的顺序固定在HMEL2.5中的顺序上,然后使用所有标记物评估了该顺序,并指定女性中未重组。然后,我们使用map2gentypes.awk将LEP-MAP3输出转换为四向完全有用的基因型,而没有丢失的数据。为了将祖先分配给杂种链接图中的分阶段单倍型块,我们使用了父母物种中具有明显不同等位基因频率的双重位点(χ2检验应用于26 H. levertus和47 H. pardalinus sevences of Peru and Ecuador的47 H. pardalinus个体)。
颜色模式,雄性挥发物和机翼形状数据集是多变量和高度共线的。因此,我们使用PCA来减少杂种与正交矢量(PC)的表型值,然后我们将其用作QTL映射中的表型。对于机翼形状,我们将PCA应用于procrustes坐标。对于雄性挥发物,我们将PCA应用于两个亲本物种(一尾配对t检验)之间有显着差异的一组。对于颜色模式,我们从对齐图像的串联RGB值上进行了PCA,并保留了解释超过1%方差的PC。
对于颜色模式,雄性挥发物,机翼形状和WBF,我们使用具有正常误差的线性模型测试了表型和基因型之间的关联。对于机翼形状,我们将质心大小作为协变量,以控制异形。对于女宿主植物的选择和男性对女性颜色模式的偏爱,我们(i)在逻辑上改变了比例,并使用了正常错误的线性模型;(ii)使用具有个体级随机效应的广义线性混合模型来解释过度分散和二项式错误。通过置换表型相对于基因型(1,000个排列)来评估QTL扫描的重要性。对于在男性和女性中表现出表型的特征,使用性别特定的意义阈值避免了虚假的性别联系(请参阅补充表5)。
我们首先使用R/QTL(参考文献93)仅使用F2S分析所有数据,以1 cm的间隔估算基因型概率,并使用Haldane映射函数和假定的基因分型错误率为0.001。然后将这些基因型概率用作模型中的因变量,对于男性和女性中表现出的特征,我们将性和跨方向纳入性染色体上标记的协变量。对于除了F2之外,还为反杂交的性状而言,我们进行了一轮分析,将F2与反向交叉结合在一起。在这种情况下,我们使用了从链接映射作为因变量推断出的分类基因型(EE,EP和PP),并对跨类型添加了随机效应(三个级别:F2,Backcross to H. reveratus to H. everatus,to H. pardalinus),性别或性别。补充表5中提供了模型结构和估计系数。
To test whether QTLs are significantly clustered (that is, genetically linked), for each QTL we estimated the recombination probability with its nearest neighbouring QTLs (using the position of the maximum LOD score), and took the mean of the resulting vector (low values indicate that most QTLs are linked to at least one other QTL; high values indicate that most QTLs are unlinked).然后,我们将QTLS的位置随机化了10,000次,并使用两尾测试将观察到的数据与随机数据集进行了比较(P =随机数据集的比例比观察到的数据×2更为极端。当多个QTL与表型类重叠时,前瞻性颜色模式,后翼颜色模式,前瞻性形状和后翼形状时,我们仅包括最佳支持的QTL(最高LOD得分)。为了测试物种和渗入拓扑是否与QTL相关,我们应用了相同的测试。
为了鉴定H. everatus和H. pardalinus之间的假定结构重排,我们比较了F2S和种子内部杂交之间的重组率(F2S,441个个人中的441个个体; H. leveratus; H. everatus,99个家庭中的179个个体; H. pardalinus,15个家庭中的296个个体)。在物种内自由重组但不在F2中自由重组的区域代表可能有助于差异和物种形成的候选重排。可以将在F2断点中观察到的物种内重组事件的概率作为PN给出,其中P是映射十字中父母的比例,而N是观察到的重组事件的数量。我们估计了每个F2断点内的PN,并考虑了p <0.01为候选重排的断点。
有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。