数据重分割(multi sample splitting),理学-统计学-大数据统计分析-数据简化,在进行假设检验等统计推断时,将样本数据进行多次分割。每次分割将数据分为不相交的两部分,一部分数据用于估计、变量选择和选择估计量或检验统计量的形式等。正式的统计诊断则在另一部分数据之中进行。最后对多次分割结果进行聚合。研究背景在经典的低维设置中,基于值的错误选择控制被广泛的应用。在高维设置中,获得各个变量的显著性却是困难的,很多算法在高维设置中会将噪声变量纳入模型中。多样本分割简单易行。有理论证明,针对高维线性模型和广义线性模型,使用该方法得到的值具有渐进有效性质,因此,可以使用该方法在高维设置中进行错误控制。假设有样本,每个样本包含1个因变量和个自变量,考虑如下高维线性模型:式中为一个维因变量;为一个维自变量;为一个维回归系数;为一个维向量,代表误差,且。