我正在做一个应用程序,它可以计算一个大的品牌/域名列表,并检测预先确定的关键字的变化。
示例:
facebook vs facebo0k.com
linkedIn vs linkedln.com
stackoverflow vs stckoverflow
我想知道,如果只是为了比较两个字符串并检测细微的变化,这两种算法是否都能满足目的,所以除非是为了提高性能,否则选择一个没有额外的价值。
我有两个包含客户姓名的列表。名称可以相似,也可以不同。如何使用python查找这两个列表之间的相似性?
在有了相似性之后,我想把相应的数据从一个excel文件拉到另一个。
示例:
列表1:
Customer Name Unique ID
IBM 2365
BOA 5456
BMW AG 2456
列表2:
Customer Name Unique ID
IBM Pvt Ltd
BMW Group
Robert Bosch
BOA Ltd
这只是一个样本数据。实际数据包含
我正在收集调查数据(使用开放数据工具包),我的现场团队,保佑他们的心,有时会在人们的名字拼写上有一点创意。因此,我有一个“正确的”受访者姓名,以及与“家庭成员姓名”变量相链接的一些记录的年龄变量。有许多不同年龄的家庭成员。我想知道被调查者的年龄。
以下是一些假数据,它们说明了我的问题:
#the respondent
r = data.frame(name = c("Barack Obama", "George Bush", "Hillary Clinton"))
#a male member
m = data.frame(nam
我正在处理一个大型的产品数据集(大约100万)。这些产品来自许多不同的来源,因此它们所列数据的方式不一致。其中的一个大问题是变异产品的品牌名称(~17000个独特品牌)。一些品牌有多达10个差异,需要联系在一起。
问题:
不一致的蚂蚁间距:喷气式煮沸对Jet煮沸
标点符号:Granger对Grangers
噪音词汇:是北脸还是北脸
税务公司:无敌舰队对无敌滑雪板
符号:菲尔和特兹对菲尔和特兹
Mis-spelling: Patagonia诉Pategonia
其他奇才:贝尔体育对贝尔体育#81037
示例数据集
Black Diamond
Black D