我正在关注在线python重复数据删除的各种教程,但无论我尝试哪一个,都会遇到这个错误: ValueError: Records do not line up with data model.not in a record 他们的github上的某个人也有同样的问题:https://github.com/dedupeio/csvdedupe/issues/55,开发人员说训练示例必须具有此错误消息中的任何记录我的数据有firstname记录,字段
我正在使用Dedupepython包来检查传入记录的副本。我训练过大概的人。来自CSV文件的500000条记录。使用Dedupe包,我将500000条记录聚集到不同的集群中。import dedupeimport os
if os.path.exists(settings_filedata看起来就像
{1:{'S