文献综述数据清理
文献综述数据清理
数据清理是数据预处理的一个重要步骤,旨在提高数据质量并增强数据的可用性。以下是文献综述中关于数据清理的一些关键点和方法:
关键点
脏数据问题 :数据中可能存在各种脏数据,如写错误、非法字符、空值、不一致值、实体表示重复和不遵循引用完整性等。重要性:
特别是在数据仓库、KDD(知识发现与数据挖掘)和综合数据质量管理(TDQM)中,数据清理是必须的步骤。
目的:
数据清理旨在提高数据质量,并增强数据的可用性。
方法
异常发现与记录重复:
识别并处理数据中的异常值和重复记录。
数据质量问题的识别与处理
写问题:
修正数据中的拼写错误。
非法字符:清除或替换数据中的非法字符。
空值处理:决定是填充空值、删除含有空值的记录,还是使用特定值填充。
不一致值处理:确保数据的一致性,可能需要规范化或标准化数据。
实体表示重复:消除对同一实体的多种表示。
引用完整性:确保数据之间的引用关系正确无误。