数据源选择(data source selection),工学-信息与通信工程-大数据处理-大数据集成-数据源选择,从数据源获得代表性的样本文档集合的过程。在非结构化数据源中,数据源选择主要是基于大文档和小文档的方法,重叠数据源的估计是通过比较样本文档集合之间的重叠估计真实的重叠。在结构化数据源(Web数据库)中,可以构建数据库的摘要选择数据源:通过查询获取查询结果,获得属性值-频率的统计数据,建立直方图。但在深层网络(deep web)数据源中,无法直接获得属性值-频率的聚合估计值来建立直方图;同时,直方图数据无法用来估计数据源之间的重叠率。基于抽样的重叠数据源选择工作主要是Stat Miner方法。Stat Miner假设数据源和查询的关联被转化为类(集合)层次;基于样本数据,可以学习出类间(而非数据源间)覆盖率和重叠率的统计数据,选择top-K数据源集合使得不同的查询结果数量最多。基于分层抽样的数据源选择与Stat Miner方法的不同在于:①基于分层抽样的数据源选择考虑选择一部分数据源来得到所有查询结果,使得总体查询开销最小。而Stat Miner目标是选择top-K个数据源。