R中两个数据集之间的近似字符串匹配_R:匹配两个数据集名称的函数_如何识别数据集之间的匹配字符串？ - 腾讯云开发者社区

r、string-matching、tm、quanteda

我有以下数据集，其中包含电影标题和相应的流派，而另一个数据集包含纯文本，其中这些标题可能会被引用或不会被引用： dt1 ... etc 我想要获得的是一个函数，它匹配dt1中的这些标题，并尝试在dt2中的文本中查找它们：如果它找到任何匹配或近似匹配</e

浏览 23提问于2020-04-17得票数 2

回答已采纳

1回答

计算两序列相似性的复杂性

algorithm、complexity-theory、bioinformatics、dna-sequence

计算两个序列之间相似性的最著名算法的计算复杂度是多少(如DNA或蛋白质比对/近似字符串匹配)？这种相似性是基于：编辑:在假定参考<e

浏览 1提问于2013-02-09得票数 3

1回答

如何连接相似字符的数据集？[复制]

r、dplyr、tidyverse

这个问题在这里已经有答案了：在R中使用模糊/近似字符串匹配合并两个数据帧 (4个答案) 8小时前就关门了。我有两个要连接的数据集列。但是，图书名称与第一个数据集略有不同。似乎没有明确的模式，但唯一的条件是：是书名的子集 ..。你有什么建议加入他们吗？

浏览 22提问于2021-03-02得票数 1

回答已采纳

1回答

Python For循环占用太多时间

python-3.x、for-loop

我有两个不同的数据集，其中一个包含650k个记录，另一个包含20k个记录，我希望在这两个数据集的单个列中找到匹配或近似匹配的数据。由于Python速度非常慢，如何加快这一过程？注意:在两个数据集的两列中，我的数据类型都是字符串</e

浏览 57提问于2021-09-27得票数 0

1回答

在R中的单独字段中匹配条件下的近似字符串匹配

我有两个数据帧，我想从它们中执行近似字符串匹配。united kingdom两个数据帧之间的近似匹配的关键列是由于观察值列中的关系，选择在"country“列上也有匹配<em

浏览 0提问于2016-04-05得票数 1

1回答

数据匹配算法

algorithm、matching

我真的不知道从哪里开始这个项目，所以我希望一个广泛的问题至少可以指出我的正确方向。我现在有两个数据集，每个数据集大约5gb，有200万个观测数据。它们是为某一地区在一定时间内的财产清单收集的评估和历史数据。我需要做的是相互匹配属性。因此，一项财产可能会出现在历史上，因为它被出售2或3次在此期间。在这个历史上，我有卖方信息，贷款信息，和销售信息。在评税员的

浏览 2提问于2014-01-09得票数 0

1回答

近似去重复

r、join、duplicates、fuzzy-comparison、record-linkage

假设我有这样一个数据集：我需要检查可能的副本。在这里，第二排和第三排被怀疑是重复的。我知道字符串距离方法以及数值变量的近似匹配。但是把这两种方法结合在一起了吗？，我想找一种可以在R中实现的方法。

浏览 0提问于2019-07-15得票数 0

2回答

作者姓名的近似字符串匹配.模块和策略

python、python-2.7、difflib

我创建了一个小程序来检查作者是否存在于作者的数据库中。我还没有找到解决这个问题的任何特定模块，所以我正在从头开始编写它，使用模块进行近似的字符串匹配。该数据库包含大约6000名作者，格式非常糟糕(许多排版、变体、标题如"Dr.“等)。查询作者列表通常在500-1000之间(我有很多这样的列表)，这使得速度变得非常重要。我的一般策略是尽可能地修剪和过滤数据库，并寻找准确<e

浏览 0提问于2012-12-20得票数 7

4回答

字符串近似(从字典中获取最接近的匹配字符串)

java、string、string-matching、approximation

有没有什么字符串匹配代码或算法可以给我们提供字典(包含预定义的字符串集)中近似匹配的字符串？例如:如果字典(字符串集)中有10个字符串，如果用户输入某个字符串，那么算法应该告诉你字典中最接近匹配的字符串。如果我得到具有匹配值(或百分比)的匹配</em

浏览 1提问于2012-09-03得票数 4

1回答

在多列模糊/近似匹配中加入Pandas DataFrames

python、pandas、dataframe

尝试加入“名称”、“经度”和“纬度”的两个数据集，但使用模糊/近似匹配。是否有一种方法可以使用“Name”字符串的组合，例如，至少有80%的匹配，而“纬度”和“经度”列是最近的值，或者是彼此之间的0.001？我试过使用pd.merge_asof，但不知道如何使它工作。谢谢你的帮助!

浏览 11提问于2022-10-14得票数 0

回答已采纳

2回答

如何选择模糊匹配算法？

python、algorithm、fuzzy-comparison

我需要知道使模糊算法在这3种情况下彼此不同的标准：Levenshtein distance是用于度量两个序列之间差异的字符串度量。非正式地说，两个单词之间的Levenshtein距离是将一个单词转换为另一个单词所需的最小单字符编辑次数(即插入、删除或替换)。Damerau-Levenshtein距离 Damerau-Levenshtein距离是两个字符串(即有限符号

浏览 126提问于2019-05-16得票数 0

2回答

合并到R- VLOOKUP等价物中？

r、dplyr

over 50"))1 0 0 to 50我的主数据集如下所示：1 103 100我需要使用左连接来连接两个数据集匹配应该是近似</e

浏览 0提问于2019-09-12得票数 0

1回答

用于查找包含一个或多个匹配的单词的C#正则表达式

c#、regex

我有一个较大的德语文本数据集，它是由于一些编码问题而生成的，我无法从头开始重新创建该数据集。所以，我发现在德语特殊字符应该是字符串"??“的情况下。出现在它所在的位置(我猜这是因为将UTF8视为Ascii或类似的东西)。该数据集采用一系列CSV文件的形式，其中包含大约180,000行。我的解决方案是识别所有包含"??“的唯一

浏览 0提问于2012-01-03得票数 0

回答已采纳

1回答

elasticsearch中的模糊查询与模糊逻辑有关吗？

elasticsearch、fuzzy-search、fuzzy-logic、fuzzy

正如标题所述，Elasticsearch的模糊查询究竟与模糊逻辑有什么关系？它背后有模糊系统吗？1 | / /\ \ ----------

浏览 1提问于2016-01-16得票数 1

回答已采纳

1回答

创建在结点处合并链接的Sankey/ Alluvia图

javascript、r、ggplot2、d3.js、plotly

在我能找到的所有示例中，对于Sankey/ Alluvia图，我看到链接在节点上以这样一种方式聚集在一起，即节点的大小是连接到它的所有链接的总和。然而，我想将匹配过程可视化，其中2个数据库被匹配成3个新的数据集(A:来自数据集1的数据，不能匹配；B:两个数据

浏览 0提问于2021-10-24得票数 2

2回答

R中与stringdist_join()的模糊联接，错误:下标赋值中不允许使用NAs

r、dplyr、merge、fuzzy-comparison、fuzzyjoin

首先，如果我的格式不好，我很抱歉，这是我第一次发帖，(也是编程和R的新手)strin

浏览 2提问于2018-11-02得票数 8

2回答

近似匹配

我对R非常陌生，我一直在想，是否存在一个函数或包来进行近似(dateTime)匹配。intersect()函数提供了精确匹配的列表，但是我对近似匹配感兴趣。例如，我有两个具有dateTime值的数组，并且我希望有一个在这两个数组中发生的事件的列表，其差异最大为2秒。H:%M:%S", tz="UTC") intersect(arrayA,arrayB

浏览 4提问于2017-05-05得票数 0

回答已采纳

1回答

如何在星火数据集的不同分区上进行自笛卡儿积？

scala、apache-spark、apache-spark-dataset

我需要比较数据集2到2的不同行。理想情况下，我将对数据集执行一个自笛卡尔积，然后删除重复的比较(因为A, B与B, A相同)，最后我将执行一个map来决定每一对行是否相等。然而，它会导致大量的行，我负担不起它所需要的计算费用。

浏览 5提问于2017-04-07得票数 0

1回答

在弹性搜索中必须和MUST_NOT查询

elasticsearch

我用包含数据"A“和"B”的元数据"User_Id“索引文档。我正在检查文件"A而不是B“。我无法得到想要的输出。我被限制不使用“查询字符串查询”和“不”操作符。

浏览 0提问于2018-10-09得票数 0

回答已采纳

1回答

R中的近似字符串匹配

r、string-matching、levenshtein-distance

为了我的研究，我必须匹配两个包含基金信息的数据集。不幸的是，没有公共标识符。好的是，我在两个文档中都有一个标识符，用于文档编号，但是可以包含多个基金。如果文档中有多个基金(例如，20)，我只能通过基金的名称进行匹配，而该名称有时会略有不同。注意，在任何数据集中，每个文档的资金数是相同的。levenshteinSim(string, stringV

浏览 2提问于2013-04-22得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云