数据溯源(data provenance),管理学-管理科学与工程-大数据与知识管理-大数据-大数据安全-隐私保护,一种追溯数据起源的技术,重现原始数据在整个过程中的演变路径。数据溯源是判断数据及结果是否真实可靠的有效方法,广泛运用于要求数据真实性的领域中。数据溯源技术通过记录数据在每一步操作中的计算和结果,保证科学研究或其他结果的可重现性。数据溯源技术起源于20世纪90年代,最初用于科学工作流,如医学、生物、考古、航天等。随着计算机技术和互联网的发展,人们对数据真实可靠的要求越来越高,已覆盖到计算机有关的各行各业。数据溯源包括模型和方法两个方面。数据溯源模型包括信息获取、信息存储等方面。通用的数据溯源模型包括OPM模型、Provenir模型,以及PROV标准中的PROV-DM模型。数据溯源方法即如何进行数据溯源,主要方法有标注法和反向查询法。数据溯源技术的应用包括在数据库中的应用、在工作流中的应用等。2010年,学者提出了W7模型,指出溯源信息应该涵盖What、When、Where、How、Who、Which、Why七个方面。