基于知识库清洗关系型数据

文章来源：企鹅号 - 大数据与数据科学家

在2017年数据库顶会ICDE中，数据清洗领域收录了四篇相关论文。其中，清华大学数据库组的一篇名为“Cleaning Relations with Knowledge Bases”的研究论文将数据清洗技术又推动了一步。下面，本文将从技术背景、主要贡献和应用前景三方面对该文章进行解析，欢迎同行批评指正。

一、技术背景

数据清洗工作是数据分析、数据挖掘、机器学习等工作进行前必不可少的一步准备工作。目前已经有许多数据清洗方法和系统被提出，其中包括基于约束的清洗方法[1,2,3,4]、基于规则的清洗技术[5,6,7]、基于知识库和众包的数据清洗系统[8]等等。大多数基于约束的清洗工具是黑盒，而基于规则的清洗方法是百盒。因此，当数据清洗发生错误的时候，基于规则的方法更能够解释该错误发生的原因。因此，基于规则的方法如今被更广泛地使用。

而现如今，随着数据的急速增长，知识库应运而生，如Yago[9]，DBpedia[10]。因此，该文章采用借助数据库中海量知识的方式来完成数据清洗工作。这种清洗方式是基于规则的，不借助于完整性约束[1,11,12]或众包知识[8]的帮助。

二、主要贡献

为了从知识库中获得相关的知识，从而判断关系型数据中关系的正误，需要在知识库和数据表之间建立一种语义的关联。因此，该文章形式化定义了检测规则。通过检测规则，我们可以获得借助知识库中的类型和关系等知识，判断数据表中所存在关系的两种相反的语义。这两种语义分别是正面语义和负面语义。正面语义表示在正确的元组中，属性值与其他值之间的连接关系；负面语义表示在同一元组中，错误的属性值与其他正确值之间的连接关系。如果数据表中的元组与负面语义匹配，那么检测规则可以检测并修复该错误。

该文章阐述了检测规则的生成过程，并对其应用进行了讨论。同时，也在理论方面对检测规则的一致性进行了分析。

在理论分析的基础上，该文章引入了优化方法来加速清洗过程，其中包括对检测规则的应用顺序选择、使用倒排索引等等。

最后，文章通过大量实验验证了所提出算法的效率和准确率。实验证明检测规则算法能够高效地修复并标记数据。此外，该方法的可扩展性良好。

三、应用前景

本文认为，该文章提出的基于知识库的数据清洗技术为数据库领域提供了新的研究方向。

其一，目前知识库的构建尚不完善，知识库中的知识也需要通过数据清洗的方式进行进一步检测和修复。因此，我们可以基于正确的数据对知识库中的数据进行清洗。

其二，知识库中存储了大量的知识，而这些知识并不都对数据清洗过程有效。因此，我们可以构建服务于数据清洗工作的知识库。

参考文献

[1] P. Bohannon, W. Fan, M. Flaster, and R. Rastogi. A cost-based model and effective heuristic for repairing constraints by value modification. In SIGMOD, 2005.

[2] G. Cong, W. Fan, F. Geerts, X. Jia, and S. Ma. Improving data quality: Consistency and accuracy. In VLDB, 2007.

[3] M. Dallachiesa, A. Ebaid, A. Eldawy, A. K. Elmagarmid, I. F. Ilyas, M. Ouzzani, and N. Tang. NADEEF: a commodity data cleaning system. In SIGMOD, 2013.

[4] W. Fan. Dependencies revisited for improving data quality. In PODS, 2008.

[5] W. Fan, J. Li, S. Ma, N. Tang, and W. Yu. Towards certain fixes with editing rules and master data. VLDB J., 21(2), 2012.

[6] M. Interlandi and N. Tang. Proof positive and negative in data cleaning. In ICDE, 2015.

[7] J. Wang and N. Tang. Towards dependable data repairing with fixing rules. In SIGMOD, 2014.

[8] X. Chu, J. Morcos, I. F. Ilyas, M. Ouzzani, P. Papotti, N. Tang, and Y. Ye. KATARA: a data cleaning system powered by knowledge bases and crowdsourcing. In SIGMOD, 2015.

[9] J. Hoffart, F. M. Suchanek, K. Berberich, and G. Weikum. YAGO2: A spatially and temporally enhanced knowledge base from wikipedia. Artif. Intell., 194, 2013.

[10] M. Morsey, J. Lehmann, S. Auer, and A. N. Ngomo. Dbpedia SPARQL benchmark - performance assessment with real queries on real data. In ISWC, 2011.

[11] F. Chiang and R. J. Miller. A unified model for data and constraint repair. In ICDE, 2011.

[12] X. Chu, I. F. Ilyas, and P. Papotti. Holistic data cleaning: Putting violations into context. In ICDE, 2013.

“大数据与数据科学家”公众号

主编：王宏志

特邀副主编：朱劼

副主编：丁小欧

责任编辑：齐志鑫，宋扬

编辑：陶颖安

-精彩内容，记得分享到朋友圈-

发表于: 2018-03-102018-03-10 21:55:03
原文链接：http://kuaibao.qq.com/s/20180310G0WUU100?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

基于知识库清洗关系型数据

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐