在用于分析和建模大型空间数据集的近似方法之间组织一场全球竞赛,使 KAUST 研究人员能够比较这些不同方法的性能。
空间数据集可以包含许多不同类型的数据,包括地形、几何或地理信息,例如环境或财务数据,包括在许多位置进行的测量。先进的观测技术的发展导致越来越大的高维数据集,使得空间统计中的统计推断在计算上具有挑战性并且非常昂贵。
各种近似方法可用于对这些大型现实世界空间数据集进行建模和分析,其中精确计算不再可行,推理通常通过经验验证或通过拟合模型的预测准确性进行验证。然而,很少有研究比较这些近似方法的统计效率,并且这些方法仅限于中小型数据集。
这促使 KAUST 的 Marc Genton、Huang Huang 和同事组织了一场不同近似方法之间的竞赛,以评估他们的模型推理性能。
比赛“旨在实现尽可能多的不同方法之间的全面比较,还涉及最近开发的方法,”黄说。“它还旨在通过结合几个关键特征来克服先前研究中的弱点。”
这些特征包括由 ExaGeoStat 软件生成的合成空间数据集,其中包含从 100,000 到 100 万个数据点的数据集。“有了这些更大的合成数据集,我们知道大规模的真实过程,我们可以更好地比较不同近似方法的统计效率,”Genton 解释说。
此外,数据生成模型代表了高斯和非高斯案例的广泛统计特性,包括通过多个标准评估的估计和预测。
该竞赛于 2020 年 11 月启动,激发了来自全球空间统计界的 29 个研究团队的兴趣,其中 21 个团队在 2021 年 2 月的比赛结束前提交了他们的结果。“通过审查参赛作品,我们能够更好地了解每种近似方法何时变得不充分,”黄说,它为“理解现有近似方法的性能提供了一个统一的框架。”
“我们现在计划将比较扩展到来自多元或时空随机过程的更复杂的数据集。”他补充说。