2025-06-25 03:38来源:本站
从我们先前对非洲CGF研究的研究中,我们使用了基于贝叶斯模型的地理术14-利用地理参考的调查数据以及环境和社会经济协变量,以及具有相似的协价模式的指向的假设在空间和时间上彼此之间彼此之间相似,可以预期具有相似的cgf估计,并且可以在cgf上产生类似的限制。在LMIC的五岁以下儿童中浪费和体重不足。发育迟缓,浪费和体重不足的定义为z得分,其比WHO健康人群参考中位数的长度/高度,长度/高度/身高和体重 - 年龄和性别特异性曲线的重量分别低于WHO健康人群参考中位数。使用一个集合建模框架,该框架将其供应到相关的时空错误和1,000个从拟合的后端分布中汲取1000个贝叶斯通用线性模型,我们在5×5-km网格上为每年的105个LMICs cgf的每种指标估算了每年从2000年到2017年至2017年的公共级别的策略级别的策略及相关的信息,以提供相关的信息,以供行动提供相关的信息。对于此分析,我们使用了460家家庭调查的数据和代表460万儿童的报告进行了广泛的地理位置数据集编辑。为了确保与国家估计值的可比性并促进基准测试,这些本地级别的估计是由20171年全球疾病负担(GBD)研究所产生的估计值,随后将每个行政级别汇总到第一个行政级别(例如,州或省份)和第二个行政级别(例如,每个LMIC中的地区或部门)。我们还根据2000-2017的轨迹预测2025年的CGF患病率,并估计到2025年之前满足WHO的AROC。此外,此外,此外, 我们根据我们的患病率估计值和515,16岁儿童的人口规模,估计LMIC中每个CGF指标受到的五名儿童的绝对数量。此外,我们提供的数字表明,每个国家的第二个行政级别单位之间的次级差异具有2000年和2017年的估计率最高和最低的(扩展数据图2、4、6)。我们对以前分析中包括的51个非洲国家的CGF患病率进行了重新估计,使用28个调查,并将时间趋势从2000年到2017年扩展到模型。由于数据可用性和方法的改善,此处提供的估计值取代了我们先前的建模工作。
选择了使用社会人口统计学指数(SDI)的国家选择的国家,这是对GBD研究中发表的教育,生育能力和贫困结合的发展的摘要度量。此处报告的分析包括低点,中间和中部SDI五分位数的国家,除了几个例外(补充表3)。尽管SDI地位高,但中国,伊朗,利比亚和马来西亚仍被包括在内,以创造更好的地理连续性。阿尔巴尼亚和摩尔多瓦由于与其他包括国家的地理不连续性以及缺乏可用的调查数据而被排除在外。我们没有估计美国萨摩亚岛国,密克罗尼西亚联邦州,斐济,基里巴蒂,马歇尔群岛,朝鲜,萨摩亚,所罗门群岛或汤加,那里没有可用的调查数据可源。我们建模过程的流程图在扩展数据中提供了图9。
我们从家庭调查系列中提取了五岁以下儿童的个人级别的身高,体重和年龄数据,包括人口统计学和健康调查(DHS),多个指标集群调查(MIC),生活水平标准测量研究(LSMS)和核心福利指标问卷(CWIQ)(CWIQ),以及其他国家的儿童健康和营养水平和营养水平4.17,17,17,17,17,17,17,17,17,17,17,17,17,17,17,17,17,17,17,17,17,17,17,17,17,118。我们的模型中包括460份地理参考的家庭调查,并来自105个国家 /地区的报告,约有460万儿童以下儿童。每个儿童记录都与一个集群,一群邻近家庭或充当主要采样单位的“村庄”相关联。一些调查包括该调查中每个集群的地理坐标或精确地点名称(138,938群发育群体,浪费144,460个,体重不足147,624)。在每个群集没有地理坐标的情况下,我们将数据分配给调查中最小的可用行政区域(称为“多边形”),同时校正了调查样品设计(16,554多边形的发育迟缓,18,833,浪费18,833,浪费19,564)。这些管理单元的边界信息是直接从调查中作为ShapeFiles获得的,或通过与全球管理单元层(GAUL)20或全球管理区域数据库(GADM)21中的Shapefile进行匹配。在某些情况下,使用调查管理员提供的ShapeFiles,或根据调查文档创建自定义ShapeFiles。使用人群加权采样方法在相关的面积单元上重新采样到点位置,其位置数量与该区域中的网格单元的数量以及所有重新采样点总和的总权重为ONE1616。
Select data sources were excluded for the following reasons: missing survey weights for areal data, missing sex variable, insufficient age granularity (in months) for calculations of length/height-for-age z-scores and weight-for-age z-scores in children ages 0–2 years, incomplete sampling (for example, only children ages 0–3 years measured), or untrustworthy data (as determined by the survey administrator or by inspection).我们排除了无法在几个月和几周内计算年龄的儿童数据。高度值≤0cm或≥180cm和/或体重值≤0kg或≥45kg的儿童也排除在研究之外。我们还排除了根据2006年WHO儿童成长标准建议范围值的数据,这些数据被认为是异常值 <−6 or >6长的长度/高度z得分,用于发育迟缓, <−5 or >5个重量/高度/高度z得分用于浪费,并且 <−6 or >5次体重体重3,4的体重Z分数。补充表6中提供了针对每个国家 /地区的调查数据的详细信息。根据国家,类型和年份,所有CGF指标的数据可用性图都包含在补充图2中。2–16。
使用每个人的身高,体重,年龄和性别数据,使用年龄,性别,性别和指标特异性LMS(Lambda-Mu-Sigma)值的年龄,高度和体重为Z分数的体重,从2006年WHO儿童成长标准3,4。LMS方法允许高斯Z分数计算和比较应用于偏斜的非高斯分布22。如果分别为年龄,高度/长度/长度或重量年龄的高度/长度为年龄,我们将发育迟缓,浪费或体重分类不超过两个标准偏差(z得分)低于WHO增长参考人群6。然后将这些个体级的数据观察结果折叠为集群级别的总数,以抽样,浪费或体重不足影响的儿童数量和五名儿童总数。
我们估计了从2000年到2017年每年使用的模型,估算了发育迟缓,浪费和体重不足的患病率,该模型使我们能够考虑到整个调查年度测量的数据点。因此,该模型还可以使我们可以在每月或更精细的时间分辨率上预测;但是,我们在计算上也受到协变量的时间分辨率受到限制。
由于浪费的急性性质及其相对的时间瞬时,因此可以预处理浪费数据,以说明观察到的每一年的季节性。在LMIC中,大量人口生活在农村地区,并拥有依赖农业和牲畜的生计。季节性会影响食物的可用性和获取性,有时由于自然灾害或气候事件(例如,洪水,季风或干旱)因季节而异。使用访谈的月份和国家级固定效应作为解释变量,将广义的加性模型适合在时间上浪费数据,而浪费Z分数作为响应。使用了12个月的面试月定期样条,以及在整个数据集持续时间内平滑的样条。一旦适合模型,就可以调整单独的高度/长度z得分观测值,以使每个测量值与代表周期性样条中平均一天的一天一致。季节性调整对原始数据的影响相对较小。
为了利用观测值的位置到整个时空结构域的强度,我们在105个LMIC中汇编了CGF的几个5×5千公里的栅格层(补充表7,补充表7,补充图17)。在审查了有关其影响的证据和合理的假设后,根据其对CGF指标的预测潜力选择协变量。在可能的情况下,对时间动态数据集的获取得到了优先级的优先级,以最好地匹配我们的观察结果,从而预测CGF指标的变化动力学。在包括的十二个协变量中,有8个是动态的,在每个估计期间或中期估算中被重新格式化为天气平均值:这些协变量包括平均每日平均降雨量(降水),平均平均温度,日常平均温度,植被指数增强,生育能力,疾病,恶性症,良好的发生,教育率,妇女的教育成绩和年龄的妇女(15-49岁),年龄为15-49岁。在整个研究期间,其余四个协变量层是静态的,并且在所有建模年份中均均匀地应用。生长的季节长度,灌溉,维生素A的营养产量以及> 50,000居民最近定居的旅行时间。
为了选择协变量并捕获它们之间可能的非线性效应和复杂的相互作用,实现了一个集合协变量建模方法23。对于每个区域,使用我们的所有协变量数据作为解释性预测变量,将三个子模型适合我们的数据集;这些子模型是:广义添加剂模型,增强的回归树和套索回归。使用五倍的交叉验证拟合每个子模型,以避免过度拟合,并且从五个保留中的样本外预测汇编成该模型的一组全面的预测集。此外,使用100%的数据运行相同的子模型,并创建了一套样本内预测。在执行模型拟合时,将三组样品外的子模型预测作为解释性协变量送入完整的地统计模型14。使用拟合的完整地统计模型生成预测时,将来自子模型的样本内预测用作协变量。最近的一项研究表明,这种整体方法可以比单个型号23提高预测有效性高达25%。
二项式计数数据是在使用Logit链接功能以及在空间和时间上显式的分层概括性线性回归模型在贝叶斯分层建模框架中建模的大洋洲,中美洲和加勒比海,安第斯南美洲以及热带南美;对于每个区域,我们明确编写了定义贝叶斯模型的层次结构。
对于每个二项式CGF指标,我们对每个调查集群中的发育迟缓,浪费或体重不足的儿童的平均数量进行了建模。调查簇正好位于其GPS坐标和观察年份的位置,我们将其映射到空间栅格位置,i,t。我们观察到据报道的儿童数量分别是二项式计数数据,CD,在观察到的样本量中,ND。由于我们可能已经在给定位置观察到了几个数据簇,因此,i,t,t,我们指的是在给定群集(给定的群集,d,d)的索引位置i,t,t,t,t,t,d(d),t(d)中的发育率,浪费或体重不足的p,p,p,p,p,p,p,p,p,p,d。
对于索引d,i和t, *(索引)是该索引的值。概率,pi,t,既代表了时空时间位置的年龄,也代表了单个孩子遭受危险因素的可能性,因为他们住在该特定位置。The annual prevalence, pi,t, of each indicator was modelled as a linear combination of the three sub-models (generalized additive model, boosted regression trees, and lasso regression), rasterized covariate values, Xi,t, a correlated spatiotemporal error term, Zi,t, and country random effects, ϵctr(i), with one unstructured country random effect fit for each country in the modelling region and allctr共享具有方差参数的常见方差参数γ2和独立的掘金效应,t,t,σ2。βH中的系数在三个子模型中h = 1、2、3表示它们在平均logit链接中的各自的预测权重,而关节误差项Zi,Z,T,说明了剩余的空间时空自相关,这些数据点在考虑到子模型的预测效应后,在核算预测效应后,该子模型的误差error error of Country-erripter,fircter ant firal ant firaget anget ange ange ang效应,nug效应(ang)ϵi,t。残差Zi,t被建模为以零为中心的时空时期和时空的三维高斯过程(GP),并具有由空间和时间协方差内核的Kronecker构建的协方差矩阵。空间协方差σ空间是使用各向同性和固定的Matérn函数进行建模的,而时间协方差为σTime,为年度自回归(AR1)函数,在模型中代表的18年中。在固定的matérn函数中,γ是伽马函数,κV是v> 0的修改贝塞尔函数,κ> 0是缩放参数,d表示欧几里得距离,而ω2是边缘方差。缩放参数κ定义为δ是范围参数 (这大约是协方差函数接近0.1的距离)和V是一个缩放常数,将其设置为2而不是符合数据26,27。该参数很难可靠地拟合,如许多其他分析26,28,29所记录的,该参数将其设置为2。行的数量和空间Matérn协方差矩阵的列数都等于给定的建模区域的空间网格点的数量。在AR1函数中,ρ是自相关函数(ACF),而K和J是时间序列中的点| k - j |定义滞后。行的数量和AR1协方差矩阵的列数都等于时间网格点的数量(18)。给定建模区域的行数和时空 - 时间协方差矩阵的列数σ空间σ时间都等于:(空间网格点×时间网格点的数量)。
这种方法利用数据的残余相关结构更准确地预测了没有数据的位置的普遍性估计,同时还可以传播数据对不确定性估计的依赖性14。使用r-Inla30,31(集成的嵌套拉普拉斯近似值)中的计算高效且准确的近似值拟合后验分布,其随机部分微分方程(SPDE)27使用R Project v.3.5.1拟合高斯过程残差的近似值。使用INLA的SPDE方法已在其他地方进行了证明,包括估计健康指标,颗粒空气和人口年龄结构9,32,33,34,35。不确定性间隔是由1,000个抽奖(即统计上合理的候选地图)产生的36 36由模型参数的后验估计分布产生。补充信息中提供了有关模型和估计过程的更多详细信息。
为了利用2017年GBD研究1中包含的国家级别数据,这些数据不在我们当前的地理空间建模框架范围内,并确保这些估计值与GBD国家级别和次级估计之间的对齐方式,我们对1,000次抽奖的平均值进行了事后校准。我们计算了在国家或第一行政级别的GBD估计水平,将这些估计值计算为GBD估计水平,并将这些估计值与我们从2000年到2017年的相应年度估计值进行了比较。我们将校准因子定义为GBD估算的比率,以及我们当前的每年估计值,从2000年到2017年也是最初的校准级别的GBD级别。次国级别。这些国家包括巴西,中国,埃塞俄比亚,印度,印度尼西亚,伊朗,墨西哥和南非。最后,我们以其相关因素(或一年中的年度)年度(或一年管理年度)中的每个估计值倍增。这确保了我们的地理空间估计值与2017 GBD1的估计值之间的一致性,同时保留了我们估计的国内地理空间和时间变化。为了将网格电池级别的估计值转变为对潜在用户广泛选区有用的一系列信息,这些估计值在第一次和第二个行政级别的单位进行了汇总,使用条件模拟37。
尽管这些模型可以预测可用的栅格协变量所覆盖的所有位置,但根据最近可用的中度分辨率成像谱仪(MODIS)卫星数据(2013),所有最终模型输出被归类为“贫瘠或稀疏植被”的所有最终模型输出。最终输出中还掩盖了总人口密度小于10个个体的区域。
我们使用五倍取消样本的跨验证策略评估了模型的预测性能,并发现我们的患病率估计与调查数据密切相匹配。为了通过尊重数据中的某些空间相关性来提供更严格的分析,通过在不同的空间分辨率(例如,第一个管理级别)组合数据集来创建保留集。通过计算偏差(平均误差),方差(根平方误),在预测间隔内的95%数据覆盖范围以及观察到的数据和预测之间的相关性来进行验证。所有验证指标均根据五倍交叉验证的样本外预测进行计算。此外,检查了空间和时间自相关前后模型的测量,以验证数据中复杂的时空相关结构的正确识别,拟合和核算。所有验证程序和相应的结果都包含在补充表14-22和补充图2中。24–41。
为了将过去18年中CGF患病率提高的估计提高率与满足WHOS的2017年至2025年之间所需的改进率,我们使用了适用于我们估计的最后一年的年度变更率(AROC)进行了简单的预测。
对于每个CGF指标,u,我们通过计算每对相邻年之间的AROC来计算每个网格单元的AROC,T:
然后,我们通过在多年来取得加权平均值来计算每个指标的加权AROC,在这些平均值中,最近的AROC在平均值中得到了更大的权重。我们将权重定义为:
多年来,可以选择γ以减轻不同量的体重。对于任何指标,我们然后计算出平均AROC为:
最后,我们通过在2017年的平均患病率估计中应用AROC来计算预测,从2017年到2025年,在8年内产生估计值。对于这组投影,我们选择了γ= 1.7进行发育迟缓,γ= 1.9用于浪费,而γ= 1.8 = 1.8。
该投影方案类似于2017 GBD测量进度的方法,并预计与健康相关的可持续发展目标1。我们的预测是基于以下假设:区域将维持当前的AROC,而精度取决于年度患病率的估计,其不确定性水平。
尽管WHO GNT浪费的是将患病率降低到不到5%,但发育迟缓的WHN GNT的患病率相对降低了40%。对于我们的分析,我们将WHO GNT定义为发育迟缓和体重不足(为其建立了WHO的GNT),相对于2010年,世界卫生大会要求开发WHO GNTS39的一年。
我们模型的准确性取决于可用于分析的调查的体积,代表性,质量和有效性(补充表4、5,补充图2-16)。国家调查中的持续数据差距包括缺乏CGF数据或家庭水平特征,例如卫生和卫生实践。在数据丢失或不太可靠的区域中,我们的估计值的不确定性较高(图1d,2d,扩展数据图5D),并且更严重地依赖于协变量并从邻近地区借用其建模(补充表7,补充表,补充图17)。对改进健康监视系统的投资以及包括儿童人为计量学作为常规数据收集人群特征的一部分,可以提高我们估计的确定性,并更好地监控对国际目标的进步。此外,收集人体测量信息(包括孩子的年龄,身高和体重)的测量误差可能会引入不同调查类型的数据中的偏见或错误。年龄数据的准确性可能会受到抽样方法和自我报告偏见的差异的影响,例如长期召回期或选择性召回。由于设备不准确,不同的测量方法或人为错误,重量和高度测量可能是不准确的。我们没有包括调查随机效应来说明数据准确性的调查之间的可变性;鉴于大多数调查代表着一个国家年,因此很难将这些偏见与时间影响区分开。我们在估计过程中的校准方法仅使用比率估计器,并且没有考虑到添加效应,这可能引入了偏差。由于增强回归树子模型的复杂性,我们无法在最终估计中考虑三个子模型的不确定性 (有关更多详细信息,请参见补充信息第3.2.2节)。值得注意的是,我们的分析具有描述性,并且不支持因果关系。需要进行未来的研究以确定LMIC中和内部CGF指标的因果途径。
有关研究设计的更多信息可在与本文有关的自然研究报告摘要中获得。