2025-06-23 22:20来源:本站
我们的研究遵循准确和透明的健康估计报告(收集)的指南。该分析使用基于贝叶斯模型的地统计框架并合成来自173个家庭和人口普查数据集的地理位置数据,可为生殖年龄的女性平均教育年份(15-49岁),20-24岁的妇女,20-24岁的妇女以及2000年至2015年之间的男性年龄较高的妇女提供5×5公里的估计。其中包括非洲大陆的48个国家,以及我们拥有的岛屿,包括马达加斯加,科莫罗斯和圣汤汤和普里尼奇。我们没有估计毛里求斯,塞舌尔或佛得角,因为没有可用的调查数据可以采购。分析步骤如下所述,可以在补充信息中找到其他细节。
我们编写了一个在非洲的173个调查和人口普查数据集的数据库,其中包含了次级行政边界的地理编码或采样集群的精确坐标。其中包括来自人口统计和健康调查(DHS)的数据集,多个指标群集调查(MIC)和集成的公共用途微型数据系列(IPUMS)41,42,43(请参阅补充表2)。我们提取了人口统计学,教育和样本设计变量。教育程度的编码在调查家庭之间各不相同。在许多调查中,受访者可以表明他们的成就水平是连续的。在其他情况下,受访者可能只有几个汇总类别,例如“次要完成”,“初级完成”或“小于初级”。当所有已知的人都完成了特定的教育水平,但是尚不清楚他们是否继续登上一个新的水平,必须将理论上的完成水平分配给个人,以便估算人口的汇总统计数据,例如平均教育程度。例如,如果选项“初级完成”(6年)之后是“次级完成”(12年),则可以假定只选择前者的个人已经获得了6至12年的教育。在以前的文献中研究了平均教育年度的趋势,假设所有这些人都有6年,或有时是可行范围的中点(9)44,45。单年数据中的趋势表明,该假设在估算时间和空间的估计趋势中引入了组成偏差,因为真实辍学模式或嵌入模式的差异可能会导致平均估计值有偏见。
对于此分析,我们使用了最近开发的方法,该方法选择了跨时间和空间的类似调查的训练子集来估计BINNED数据集的真正单年分布(J.F.,N.G。&E.G.,在准备中手稿)。这种算法方法显着降低了从具有BINNED编码方案的数据集估计的摘要统计数据中的偏差。所有编码方案中的年份均映射到联合国教科文组织国际教育标准分类(ISCED)中的国家和年度参考文献46。我们在所有数据上使用了18年的顶级编码;这是许多有上限的调查中的普遍阈值,并且可以合理地假设教育对健康结果(及其他相关可持续发展目标)的重要性在大多数系统中的2至3年研究生教育之后大大降低。
数据汇总到生殖年龄妇女(15-49)的平均年份,以衡量向SDG 4 Target2的进展。还检查了年龄较小的20-24岁妇女年龄范围的数据子集,以跟踪时间变化以及自2000年以来非洲的大型教育计划的影响。男性汇总了同等年龄,以便检查按性别平均达到年龄的差异。如果可以使用精确的坐标,则假设一个简单的随机样品,将数据汇总到特定纬度和经度的平均年份,因为群集是所有DHS和MICS调查分层设计的主要采样单元。如果仅在行政单位级别可用地理信息,则数据根据其示例设计进行了汇总。为了汇总到没有对调查的行政单位进行的代表性,使用包装来分析R47中的复杂调查数据,重新估计了设计效果。
为了利用从观察到的位置到整个时空领域的强度,我们编制了几个5×5公里的栅格层,包括非洲可能的社会经济和环境相关性(请参阅补充表3和补充表3和补充图5)。为了最好地匹配我们的观察结果,从而可以预测教育程度的变化,从而获得了优先级的时间动态数据集。在包括的29个协变量中,有23个是动态的。其余的六个协变量在时间上是静态的,并且在所有建模年份都均匀地应用。可以在补充信息中找到更多信息,包括所有协变量的图。
我们的主要目标是以高分辨率提供整个非洲大陆的教育程度预测,我们已经使用方法来提供最佳的样本外预测绩效,但以推理理解为代价。为了选择协变量并捕获它们之间可能的非线性效应和复杂的相互作用,实现了一个集合协变量建模方法48。对于每个区域,使用所有协变量数据作为解释性预测因子:广义添加剂模型,增强回归树和套索回归。每个子模型都使用五倍的交叉验证拟合,以避免过度拟合,并且从五个持有的样本外预测汇总为该模型的一组综合预测集。此外,还使用100%的数据运行相同的子模型,并创建了一套样本中的预测。在执行模型拟合时,将五组样本外模型预测作为解释性协变量送入完整的地统计模型。使用拟合的完整地统计模型生成预测时,将来自子模型的样本内预测用作协变量。这种方法可以最大化样本外预测性能,而不再能够提供有关因果关系的统计推断。最近的一项研究表明,这种整体方法可以将预测有效性提高高达25%的型号48。有关此方法的更多详细信息可以在补充信息中找到。
高斯数据是在贝叶斯分层建模框架内建模的,该框架是使用空间和时间上明确的层次层次通用线性回归模型,以适合非洲五个地区的教育年代,这是全球疾病,伤害和风险因素(GBD)研究的全球负担(GBD)研究49('Northern'','','','','','','','','','','','','','','','','','','','','','','','','','','','',“GBD研究设计试图基于两个主要标准创建区域:流行病学同质性和地理连续性49。对于每个GBD区域,我们近似贝叶斯模型的后验分布:
我们将群集I的平均成就年度建模为高斯数据给定精度τ和固定缩放参数Si。我们将每个集群中的样本量用作缩放参数。我们已经抑制了符号,但是均值(edui),缩放参数(SI),来自三个子模型(XI)的预测和残留项()都在时空时间坐标处进行索引。鉴于他们生活在那个特定地点,这种手段(EDUI)代表了个人的预期教育成就。平均成就被建模为三个子模型(GAM,BRT和LASSO),XI的线性组合,即相关的时空误差项和独立的掘金效应。子模型上的系数为β,代表了它们在平均值上的各自的预测权重,而关节误差项则说明了单个数据点之间残留的时空自相关,这些平均值是一个独立的误差项。残留物以时空为中心的三维高斯过程建模,以零为中心,并具有由空间和时间协方差内核的kroenecker构建的协方差矩阵。空间协方差σ空间是使用各向同性和固定的Matérn函数50和时间协方差σTime建模为年度自动回归(AR1)函数的16年中。这种方法利用数据的剩余相关结构更准确地预测没有数据的位置的成就估计,同时还可以传播数据对不确定性估计的依赖性51。使用在r inla(集成的嵌套拉普拉斯近似)中使用计算高效且准确的近似值的后验分布,其随机部分微分方程近似于高斯过程残基52。像素级的不确定性间隔是从1,000个抽奖中产生的 (即,统计上合理的候选地图)53由建模参数的后验分布创建。
为了将像素级估计值转变为对潜在用户广泛选区有用的一系列信息,这些估计是从1,000个候选地图到地区,省和国家级别的汇总,使用5×5-km人口数据32。该聚集还得以对2000、2005、2010和2015的国家GBD估计的估计校准进行校准。这是通过计算从分析中每个候选图的后平均均值估计值的比率来实现的,然后将分析的全国平均值估计与GBD的后平均值估计,然后在此比例中通过此比例乘以后级。该方法还使校准能够将校准纳入像素级别的不确定性,从而将校准纳入不同级别的聚集水平的不确定性。The median raking factors for women aged 15–49, men aged 15–49, women aged 20–24 and men aged 20–24 were 0.926 (interquartile range (IQR): 0.794–1.084), 0.895 (IQR: 0.761–1.012), 1.036 (IQR: 0.798–1.031) and 1.053 (IQR:分别为0.861–1.233),表明与GBD估计密切一致。在补充图24-27中可以找到该分析中的国家水平估计与GBD估计值进行比较的散点图。
尽管该模型可以在可用的栅格协变量所覆盖的所有位置预测,但根据最近可用的MODIS卫星数据(2013),将土地覆盖的所有最终模型输出归类为“贫瘠或稀疏的植被”,以及在2015年的1×1-km Pixel中,总人口密度少于10个个人的总人口密度少于10个个人的阶级。
使用空间分层的五倍截面交叉验证对模型进行验证。为了通过尊重数据中的某些空间相关性来提供更严格的分析,通过组合空间连续数据集创建了保留集。通过计算偏差(平均误差),总方差(根平方误差)和95%的数据覆盖范围来进行验证,以及观察到的数据和预测之间的相关性。所有验证指标均根据五倍交叉验证的样本外预测进行计算。在可能的情况下,将这些模型的估计与其他现有估计值进行了比较。此外,检查了空间和时间自相关的测量前后模型,以验证数据的复杂时空相关结构的正确识别,拟合和核算。补充信息中提供了所有验证程序和相应的结果。
这些分析使用的所有代码均可在http://ghdx.healthdata.org/record/record/africa-educational-uctation-ucational-atainment-geospatial-estimates-2015获得。
这项研究的发现得到了公共在线存储库可用的数据的支持,这些数据可应数据提供商的要求以及由于数据提供商的限制而无法公开可用的数据,这些数据已在当前研究的许可下使用,但可以根据数据提供商的合理要求和启用数据提供。详细的数据源表和可用性表可以在补充表2中找到。
从全球行政单位层(GAUL)数据集检索了行政边界,该数据集由粮农组织在国家 /地区和农业市场信息系统(AMIS)项目中实施36。从在线数据库中检索了土地覆盖,这是由NASA EOSDIS土地工艺分配了主动档案中心(LP DAAC),USGS/Earth Resources观察与科学(EROS)中心,Sioux Falls,South Dakota37。从全球湖泊和湿地数据库(GLWD)中检索了湖泊,由世界野生动物基金会和卡塞尔大学环境系统研究中心提供。从WorldPop32,40检索人口。