2025-06-23 08:52来源:本站
我们在此处提供数据,模型和评估的其他详细信息,并引用了扩展数据,这些数据添加到了主文本中提供的结果。
英国的雷达数据集用于主要文本中的所有实验。补充信息部分。
为了培训和评估英国的现象模型,我们使用了Met Office Radarnet4 Network的雷达复合材料的集合。该网络包括15多个占英国99%的专有C波段双极化雷达(参见参考文献34中的图1)。我们指的是参考。11有关如何在后处理雷达反射率以获得二维雷达复合场的详细信息,其中包括使用雨量测量值的图形增强和平均野外调节。1,536×1,280复合材料中的每个网格电池代表OSGB36坐标系1 km×1 km区域的表面水平沉淀率(以MM H-1)。如果缺少降水速率(例如,因为该位置不被任何雷达覆盖,或者雷达不合时件),则分配了相应的网格电池一个负值,该值用于在训练和评估时间掩盖网格单元。雷达复合材料以1/32 mm H -1的增量进行量化。
我们使用2016年1月1日至2019年12月31日之间每五分钟收集一次的雷达。我们将以下数据拆分用于模型开发。从2016年到2018年每个月的第一天,将分配给验证集。从2016年到2018年的所有其他日子都分配给培训集。最后,2019年的数据用于测试集,防止数据泄漏和测试以外分布概括。有关使用不同数据拆分的进一步实验测试分布性能,请参见补充信息部分。
大多数雷达复合材料几乎没有下雨。补充表2显示,在英国,大约89%的网格细胞不包含降雨。中间至沉重的沉淀(使用高于4 mM H -1的降雨速率)占数据集中的网格细胞的0.4%。为了解释这种不平衡的分布,数据集将重新平衡,以包括更多具有较重降水雷达观测值的数据,从而使模型可以学习有用的降水预测。
数据集中的每个示例都是24个大小1,536×1,280的雷达观测值的序列,代表两个连续的数据。最大降雨速率限制为128 mm H -1,并且缺少一个或多个雷达观测值的序列被去除。提取256×256个农作物,并使用重要的抽样方案来减少少量降水的示例数量。我们描述了此重要性抽样以及补充信息部分A.1中使用的参数。在取样和删除了完全掩盖的示例之后,训练集中的示例数量约为150万。
在这里,我们描述了我们比较性能的提议方法和三个基准。如果适用,我们将描述模型的体系结构和训练方法。先前的工作有很多,我们将其作为补充信息部分的其他背景进行了调查。
主文本和图1A中给出了对模型的高级描述,我们在此处提供了一些对设计决策的见解。
Nowcasting模型是一种使用两个歧视器和附加正规化术语训练的生成器。扩展数据图1显示了生成模型和歧视因子的详细示意图。这些体系结构的更精确描述在补充B中给出,与代码描述相对应;伪代码也可以在补充信息中获得。
图1a中的发电机包括条件堆栈,该堆栈处理超过四个用作上下文的雷达字段。有效利用这种上下文通常是有条件生成模型的挑战,并且这种堆栈结构允许从上下文数据中使用来自多个分辨率的信息,并且在其他竞争性视频GAN模型中使用,例如在参考文献中。26。此堆栈产生上下文表示,该表示用作采样器的输入。潜在条件堆栈从N(0,1)高斯分布中取样,并重塑为第二个潜在表示。采样器是一个复发网络,由使用上下文和潜在表示作为输入的卷积门控复发单元(GRU)形成。采样器对18个未来雷达场(接下来的90分钟)进行了预测。该体系结构既具有内存效率,又在其他预测应用程序中取得了成功。我们还使用过去的6或8帧与更长的上下文进行了比较,但这并没有带来明显的改进。
图1B中的两个歧视因子用于允许在时空中进行对抗学习。空间和时间歧视者共享相同的结构,只是时间歧视器使用3D卷积来说明时间维度。在空间歧视器中只有18个交货时间中只有8个,而随机的128×128作物用于时间歧视器。这些选择允许模型适合内存。我们在潜在条件堆栈中包含一个空间注意力块,因为它允许模型在不同类型的区域和事件中更强大,并提供了一个隐性的正则化以防止过度拟合,尤其是对于美国数据集。
发电机和判别器始终都使用光谱归一化的卷积,类似于参考文献。35,因为这是广泛建立的,以改善优化。在模型开发过程中,我们最初发现,在两个鉴别剂的线性层之前,包括批处理归一层(无方差缩放)提高了训练稳定性。提出的结果使用分批归一化,但是我们后来能够获得几乎相同的定量和定性结果。
对发电机进行了两个歧视因子的损失和网格单元正则化项(表示)的训练。空间歧视器D ϕ具有参数ϕ,时间鉴别器Tψ具有参数ψ,并且发电机gθ具有参数θ。我们使用符号{x;G}。最大化的发电机目标是
我们在等式(2)和(3)中使用蒙特卡洛估计值对潜在Z的期望。这些是使用每个输入x1:m的六个样本计算得出的,其中包括M = 4雷达观测值。网格细胞正常器确保平均预测保持接近地面真理,并沿高度h,宽度W和牵头n轴平均。它使用函数W(y)=最大(y+1,24)对较重的降雨目标进行加权,该函数在输入矢量方面操作元素,并以24的固定性夹在雷达中的较大值。相对于参数ϕ和ψ,gan空间歧视损失和时间歧视损失分别被最小化。relu(x)= max(0,x)。判别器损失使用铰链损失配方26:
在评估过程中,发电机的架构是相同的,但是除非另有说明,否则尺寸为1,536×1,280的完整雷达观察结果以及高度和宽度1/32的潜在变量(48×40×40×8的独立分布中的48×40×8),可作为对条件的条件和标准的条件堆放的输入,用于输入。特别是,潜在条件堆栈可以比对发电机训练的区域更大的区域进行时空一致的预测。
出于操作目的和决策,概率预测的最重要方面是其解决方案36。特定的应用程序需要对可靠性的不同要求,这些要求通常可以通过后处理和校准来解决。我们开发了一种可能的后处理方法来提高生成现象的可靠性。在预测时,潜在变量是具有标准偏差2(而不是1)的高斯分布的样本,依靠经验见解来维持分辨率,同时增加了生成模型中样本多样性24,37。此外,对于每个实现,我们将随机扰动应用于输入雷达,通过将从单位均值γ分布g(α= 5,β= 5)绘制的单个常数乘以整个输入雷达场。扩展数据图4(UK)和9(US)显示了与未校正方法相比,后处理如何改善可靠性图和等级直方图。
该模型经过5×105发电机步骤的训练,每个发电机步骤具有两个口气步骤。发电机的学习速率为5×10-5,鉴别器的学习率为2×10-4,并且使用ADAM Optimizer38与β1= 0.0,β2= 0.999。网格单元正则化的缩放参数设置为λ= 20,因为这在验证集中产生了最佳的连续排名概率得分结果。我们在16个张量处理单元核心(https://cloud.google.com/tpu)上训练一周的训练数据集的随机作物,该数据集的大小为256×256,使用每个训练步骤的批次尺寸为16个。补充信息包含其他比较,显示了不同损失成分对整体绩效的贡献。我们通过比较CPU(10 Core AMD EPYC)和GPU(NVIDIA V100)硬件的速度来评估采样速度。我们生成十个样本并报告中位时间:对于CPU,每个样品中位时间为25.7 s,而GPU为1.3 s。
我们使用UNET编码器模型作为强大的基线,与相关研究中的使用方式相似,但我们进行了建筑和损失函数的变化,从而在较长的交货时间和较重的降水量下改善其性能。首先,我们用残留块代替了所有卷积层,因为后者在所有预测阈值中都提供了较小但一致的改进。其次,该模型不仅可以预测单个输出并在评估过程中使用自回旋抽样,还可以预测单个正向通行中的所有帧。这有些减轻了参考文献中发现的过度模糊。5并改善定量评估的结果。我们的体系结构由六个残留块组成,每个块将潜在表示的通道数增加一倍,然后将空间向下采样量增加了两个。分辨率最高的表示形式具有32个通道,最多增加了1,024个通道。
类似于参考。6,我们使用降水强度加权的损失。但是,我们没有通过降水箱进行加权,而是直接通过降水重新损失,以提高参考文献指定的垃圾箱之外的阈值结果。6。此外,我们将最大重量截断为24 mm H -1,因为观测值的反射率误差会导致降水值的误差较大。我们还发现,包括平均平方误差损失使预测对雷达伪像更敏感。结果,该模型仅接受降水加权平均平均误差损失的训练。
该型号使用具有默认指数率的Adam Optimizer使用ADAM Optimizer,用1×106步骤的批量尺寸为8处为1×106步骤,并具有重量衰减的2×10-4。我们在验证集的Precision -Recall曲线下使用早期停止在平均区域上选择一个模型。UNET基线通过4帧的256×256作为上下文训练。
作为第二强基于深度学习的基线,我们适应了Metnet Model19,该模型是卷积长的短期记忆(LSTM)Encoder17和轴向注意解码器39的组合,用于仅雷达雷达。元网络被证明可以使用美国大陆大陆的雷达和卫星数据在短期(长达8小时)的短期(长达8小时)中取得强烈的结果,从而使人均概率预测和使用轴向注意的交替层分解空间依赖性。
我们修改了轴向注意编码器–倍模型仅使用雷达观测值,并涵盖了本研究中数据的空间和时间范围。我们重新缩放了模型的目标,以提高其在大量降水事件的预测上的性能。在对英国和美国数据进行了评估之后,我们观察到其他卫星或地形数据以及时空嵌入并未提供统计学意义的CSI改进。补充信息部分提供了对模型及其改编的扩展描述。
参考文献中描述的唯一预测方法。19是每个网格细胞分布模式,这被认为是进行比较的默认方法。为了确保最强的基线模型,我们还评估了其他预测方法。我们使用来自每个网格细胞边际分布的独立样品进行了评估,但这并不比在定量和定性评估时使用该模式好。我们还将边际分布与高斯工艺配置库相结合,以结合与参考文献的随机扰动参数趋势(SPPT)方案相似的时空相关性。40。我们使用了选择的内核和相关量表来最大程度地减少时空合并的CRP指标。表现最好的是具有25 km空间相关量表的高斯内核的乘积,以及具有60分钟时间相关量表的AR(1)内核。但是,结果对这些选择并不高度敏感。由于固定和无条件的相关结构,所有设置都会导致样品在物理上不可行。这些样本也不受到外部专家的青睐。因此,我们在整个过程中都使用模式预测。
我们使用参考资料的PYSTEPS实现。4使用https://github.com/pysteps/pysteps上可用的默认配置。裁判。3,4提供了这种方法的更多详细信息。在我们的评估中,与评估使用大小256×256的其他模型不同,Pysteps的优势是被喂入尺寸512×512的输入,这被发现可以提高其性能。PYSTEPS包括使用概率匹配来重新校准其预测的后处理,并将其用于所有结果。
我们使用常用的定量验证措施以及使用专家气象学家的认知评估任务来评估我们的模型和基准。除非另有说明,否则在2016 - 2018年期间对模型进行培训,并在2019年进行评估(即每年分配)。
所描述的专家气象学家研究是一项两相协议,该协议由排名的比较任务组成,然后是回顾性召回访谈。该研究已提交给独立道德委员会的道德评估,并接受了有利的审查。协议的关键要素涉及同意书,这些同意书清楚地解释了任务和时间承诺,在任何时候都清楚地介绍了退出研究的能力,并且该研究不是对气象学家技能的评估,并且不会以任何方式影响他们的就业和角色。气象学家没有得到参与的报酬,因为参与这类研究被认为是气象学家的广泛作用的一部分。该研究被匿名化,只有研究负责人才能使用实验ID的分配。这项研究仅限于气象学家在与指导相关的角色中,即气象学家,其角色是解释天气预测,综合预测并提供解释,警告和手表。56名气象学家同意参加这项研究。
研究的第1阶段,评级评估涉及每个气象学家接受独特形式,作为其实验评估的一部分。评估中使用了轴向注意模式预测,这是由主要气象学家在对方案进行试点评估期间最合适的预测。第1阶段的评估包括三个判断的初始练习阶段,以了解如何使用表格和分配评级,然后进行实验阶段,该阶段涉及每位气象学家的20个试验,以及最终的案例研究阶段,所有案例研究阶段都将所有气象学家评分为相同的三个场景(图1A中的情况和图2和3)。这三个事件是由首席气象学家选出的 - 他独立于研究团队,也没有参加研究 - 这将是困难的事件,这些事件将使我们比较的现象方法面临挑战。十位气象学家参加了随后的回顾性召回访谈。这次采访涉及一次面对面的访谈,要求专家解释其分配的评分的推理以及哪些方面为他们的决策提供了信息。这些访谈都使用了相同的脚本来保持一致性,并且仅记录了音频。一旦抄录了所有音频,就会删除录音。
实验阶段的20个试验分为两部分,每个部分包含十项试验。前十项试验包括中雨事件(降雨量大于5 mM H -1),第二个10次试验包括大雨事件(降雨大于10 mm H -1)。从2019年起,首席气象学家选择了141天,因为中度到重度降水事件。从这些日期中,根据以下步骤选择雷达场。首先,我们从作物选择程序中排除了192公里,形成了雷达场每一侧的图像边缘。然后,从雷达图像中选择了超过256 km区域的农作物区域,其中包含高于给定阈值(5或10 mm H -1)的网格细胞的最大分数。如果在给定阈值以上的框架中没有沉淀,则选定的作物是最大平均强度的作物。我们在研究中使用预测而没有进行后处理。每个气象学家都评估了一组独特的预测,这使我们能够平均预测和个人偏好的不确定性以显示统计效果。
扩展数据图2显示了具有衰减和扩展数据的高强度降水前沿图3显示了旋风循环事件(低压区域),这两种事件都难以预测当前的深度学习模型。作为评估研究的一部分,所有专家气象学家还评估了这两个案例,在这两种情况下,气象学家都显着更喜欢生成方法(n = 56,p <10-4),而不是竞争方法。对于扩展数据图2中的高强度降水阵线,气象学家在73%的病例中首先将生成方法排名第一。气象学家报告说,DGMR具有“特征的形状和强度相当的精度……但是损失了嵌入对流的大部分信号,t+90”。Pysteps“对对流细胞过于广泛,缺乏在观察结果中看到的组织”,而轴向注意模型则是“突出最坏的领域”,但“看起来不错”。
对于扩展数据图3中的旋风循环,气象学家在73%的病例中首先将生成方法排名。气象学家报告说,在DGMR和PYSTEPS之间很难判断这一案例。在做出判断时,他们选择了DGMR,因为它“最合适,总体上的价格”。DGMR“捕获了整体降水的程度,尽管频段之间的雨水覆盖了,但pysteps“随着时间的流逝,空间上看起来不太准确”。轴向注意模型“尽管其结构不现实且过于二进制,但“突出了最大的雨水区域”。我们在补充信息第6节中提供其他报价。
我们使用已建立的指标20:CSI,CRP,Pearson相关系数,相对经济价值22,41,42和径向平均PSD评估所有模型。这些在补充信息部分F中进行了描述。
为了使评估在计算上可行,对于除PSD以外的所有指标,我们评估了模型的亚采样测试集,该模型由从完整的雷达图像中抽取的512×512作物组成。我们使用重要的抽样方案(在补充信息A.1中进行了描述)来确保该子采样不会不适当地损害我们评估指标估计值的统计效率。该子采样将测试集的大小降低到66,851,并补充信息部分C.3显示,在使用或不带有子采样的数据集时,评估CSI时获得的结果没有差异。除Pysteps以外的所有型号均以256×256的农作物为输入。pysteps赋予了整个512×512作物的输入,以提高其性能。预测在中心64×64个网格单元上进行评估,以确保模型不会受到边界效应的不公平惩罚。我们的统计显着性测试在测试集中使用的每隔一周的数据(留下n = 26周)作为独立单位。我们使用配对置换式test43具有106个排列的配对置换式test43,测试了两个模型的零假设,即两个模型的性能指标相等。
扩展数据图4显示了测量评估方法的校准的其他概率指标。该图显示了概率方法的相对经济价值的比较,显示DGMR提供了最佳价值。我们还展示了合奏捕获的不确定性如何随着所使用的样品数量从1增加到20。
扩展数据图5使用UKV确定性预测44比较了NWP的性能,这表明NWP在该制度中不具有竞争力。有关NWP评估的更多详细信息,请参见C.2补充信息部分。
为了验证我们方法的其他概括特征(作为使用2016 - 2018年培训数据并在2019年进行测试的年度数据拆分的替代方法),我们还使用每周分配:分别构成培训,验证和测试集的位置。培训和测试数据集的大小分别为148万和36,106。扩展数据图6在此概括测试中显示了DGMR相同的竞争验证性能。
为了进一步评估我们的方法的概括,我们使用多雷达多敏感性(MRMS)数据集在美国的第二个数据集上进行评估,该数据集由雷达复合材料组成,该数据集于2017 - 20195年。我们使用两年的培训和一年的测试,即使使用了更有限的数据源,我们的模型仍然显示出相对于其他基线的竞争性能。扩展数据图。7–9比较了我们描述的所有指标的所有方法,并显示了第二个数据集中的概括和熟练性能。补充信息包含有关性能与不同初始化和不同损失函数组件的性能的其他比较。