数据源分析(data source analysis),工学-信息与通信工程-大数据处理-大数据集成-数据源分析,对数据流的来源进行分析的过程。数据源分析的任务是让用户能够发现包含相关数据的数据源,并且有满足用户需要的足够高的数据质量。数据源分析的目标是帮助用户理解数据源内容。数据源选择技术可以用来推理关于获取和集成数据的效益和代价,进而识别出值得集成的数据源子集。给定数据源集合,具有属性。令代表一个知识库,表示数据质量度量的集合。数据源分析问题描述为:①映射,它与知识库的概念,以及实体和关系的每个数据源中的属性子集有关。②映射,它可以量化根据知识库来描述数据源不同部分的数据质量。数据源分析的典型应用包括:①贝尔曼(Bellman)系统。帮助分析人员理解复杂的、不熟悉的相关数据源的内容和结构。在数据源的内容和结构上执行挖掘过程来快速识别具有潜在数据质量问题的属性,判断具有相似取值的属性,使用连接路径构建复杂的实体等。②数据源模式摘要。对一个相关数据源给定一个模式图,大小为的的摘要是一个相关数据源中表的一个聚类,使得对每一个聚集可以定义一个表的中心。