万维网数据集成(Web data integration),工学-信息与通信工程-大数据处理-大数据集成-Web数据集成,将分布在万维网不同位置的异构数据源有效整合,为用户提供统一的视图访问的技术。万维网(Web)以各种形式提供大量的数据,其中数据都以超文本标记语言(hypertext markup language,HTML)表格、列表以及基于表单的搜索界面等方式组织起来,大部分数据以常见的结构化形式呈现给用户以便于理解,将其上的数据进行集成显得更加必要。Web中存在至少10亿个结构化HTML数据集,尽管它们对于用户而言看起来是结构化的数据,但是计算机程序从网页中抽取数据的结构仍面临着几个问题:①HTML页面中显而易见的可视化结构在底层的HTML中可能对应着不同的结构;②HTML表格主要用来以格式化的形式展示任意的数据,因此实际上其表格内容并不是高质量的结构化数据;③网页中的列表也没有模式可言,其使用的模板需要根据实际对象呈现的特点来获取其布局结构。Web数据集成的特点主要有大规模和异构性,极少的语义和结构化线索,动态内容及深层网络。