智慧城市数据清洗(smart city data cleaning),管理学-公共管理-电子政务-智慧城市数据资源-智慧城市大数据关键技术,通过定义和中断错误类型、查找并标示错误实例、修改没有发现的错误,解决智慧城市现有的繁杂数据问题,以确保数据来源以及传输的可靠性、可追踪性。是构建数据库的第一步。数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,对数据进行重新审查和校验,并使剩余部分转换成标准可接收格式的过程。目的在于删除重复信息、纠正存在的错误,并提供数据一致性。现在的研究主要为解决两个问题:发现异常、清理重复记录。数据清洗的一般路径为预处理阶段、缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗和关联性验证。数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。所以,要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。