腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
R
中
两个
数据
集
之间
的
近似
字符串
匹配
r
、
string-matching
、
tm
、
quanteda
我有以下
数据
集
,其中包含电影标题和相应
的
流派,而另一个
数据
集
包含纯文本,其中这些标题可能会被引用或不会被引用: dt1 ... etc 我想要获得
的
是一个函数,它
匹配
dt1
中
的
这些标题,并尝试在dt2
中
的
文本
中
查找它们: 如果它找到任何
匹配
或
近似
匹配</e
浏览 23
提问于2020-04-17
得票数 2
回答已采纳
1
回答
计算两序列相似性
的
复杂性
algorithm
、
complexity-theory
、
bioinformatics
、
dna-sequence
计算
两个
序列
之间
相似性
的
最著名算法
的
计算复杂度是多少(如DNA或蛋白质比对/
近似
字符串
匹配
)?这种相似性是基于: 编辑:在假定参考<e
浏览 1
提问于2013-02-09
得票数 3
1
回答
如何连接相似字符
的
数据
集
?[复制]
r
、
dplyr
、
tidyverse
这个问题在这里已经有答案了 : 在
R
中使用模糊/
近似
字符串
匹配
合并
两个
数据
帧 (4个答案) 8小时前就关门了。 我有
两个
要连接
的
数据
集
列。但是,图书名称与第一个
数据
集
略有不同。似乎没有明确
的
模式,但唯一
的
条件是: 是书名
的
子集 ..。你有什么建议加入他们吗?
浏览 22
提问于2021-03-02
得票数 1
回答已采纳
1
回答
Python For循环占用太多时间
python-3.x
、
for-loop
我有
两个
不同
的
数据
集
,其中一个包含650k个记录,另一个包含20k个记录,我希望在这
两个
数据
集
的
单个列中找到
匹配
或
近似
匹配
的
数据
。由于Python速度非常慢,如何加快这一过程?注意:在
两个
数据
集
的
两列
中
,我
的
数据
类型都是
字符串</e
浏览 57
提问于2021-09-27
得票数 0
1
回答
在
R
中
的
单独字段
中
匹配
条件下
的
近似
字符串
匹配
r
我有
两个
数据
帧,我想从它们
中
执行
近似
字符串
匹配
。united kingdom
两个
数据
帧
之间
的
近似
匹配
的
关键列是由于观察值列
中
的
关系,选择在"country“列上也有
匹配
<em
浏览 0
提问于2016-04-05
得票数 1
1
回答
数据
匹配
算法
algorithm
、
matching
我真的不知道从哪里开始这个项目,所以我希望一个广泛
的
问题至少可以指出我
的
正确方向。 我现在有
两个
数据
集
,每个
数据
集
大约5gb,有200万个观测
数据
。它们是为某一地区在一定时间内
的
财产清单收集
的
评估和历史
数据
。我需要做
的
是相互
匹配
属性。因此,一项财产可能会出现在历史上,因为它被出售2或3次在此期间。在这个历史上,我有卖方信息,贷款信息,和销售信息。在评税员
的
浏览 2
提问于2014-01-09
得票数 0
1
回答
近似
去重复
r
、
join
、
duplicates
、
fuzzy-comparison
、
record-linkage
假设我有这样一个
数据
集
:我需要检查可能
的
副本。在这里,第二排和第三排被怀疑是重复
的
。我知道
字符串
距离方法以及数值变量
的
近似
匹配
。但是把这两种方法结合在一起了吗?,我想找一种可以在
R
中
实现
的
方法。
浏览 0
提问于2019-07-15
得票数 0
2
回答
作者姓名
的
近似
字符串
匹配
.模块和策略
python
、
python-2.7
、
difflib
我创建了一个小程序来检查作者是否存在于作者
的
数据
库
中
。我还没有找到解决这个问题
的
任何特定模块,所以我正在从头开始编写它,使用模块进行
近似
的
字符串
匹配
。该
数据
库包含大约6000名作者,格式非常糟糕(许多排版、变体、标题如"Dr.“等)。查询作者列表通常在500-1000
之间
(我有很多这样
的
列表),这使得速度变得非常重要。我
的
一般策略是尽可能地修剪和过滤
数据
库,并寻找准确<e
浏览 0
提问于2012-12-20
得票数 7
4
回答
字符串
近似
(从字典
中
获取最接近
的
匹配
字符串
)
java
、
string
、
string-matching
、
approximation
有没有什么
字符串
匹配
代码或算法可以给我们提供字典(包含预定义
的
字符串
集
)
中
近似
匹配
的
字符串
?例如:如果字典(
字符串
集
)中有10个
字符串
,如果用户输入某个
字符串
,那么算法应该告诉你字典中最接近
匹配
的
字符串
。如果我得到具有
匹配
值(或百分比)
的
匹配</em
浏览 1
提问于2012-09-03
得票数 4
1
回答
在多列模糊/
近似
匹配
中加入Pandas DataFrames
python
、
pandas
、
dataframe
尝试加入“名称”、“经度”和“纬度”
的
两个
数据
集
,但使用模糊/
近似
匹配
。是否有一种方法可以使用“Name”
字符串
的
组合,例如,至少有80%
的
匹配
,而“纬度”和“经度”列是最近
的
值,或者是彼此
之间
的
0.001?我试过使用pd.merge_asof,但不知道如何使它工作。谢谢你
的
帮助!
浏览 11
提问于2022-10-14
得票数 0
回答已采纳
2
回答
如何选择模糊
匹配
算法?
python
、
algorithm
、
fuzzy-comparison
我需要知道使模糊算法在这3种情况下彼此不同
的
标准:Levenshtein distance是用于度量
两个
序列
之间
差异
的
字符串
度量。非正式地说,
两个
单词
之间
的
Levenshtein距离是将一个单词转换为另一个单词所需
的
最小单字符编辑次数(即插入、删除或替换)。Damerau-Levenshtein距离 Damerau-Levenshtein距离是
两个
字符串
(即有限符号
浏览 126
提问于2019-05-16
得票数 0
2
回答
合并到
R
- VLOOKUP等价物
中
?
r
、
dplyr
over 50"))1 0 0 to 50我
的
主
数据
集
如下所示:1 103 100我需要使用左连接来连接
两个
数据
集
匹配
应该是
近似</e
浏览 0
提问于2019-09-12
得票数 0
1
回答
用于查找包含一个或多个
匹配
的
单词
的
C#正则表达式
c#
、
regex
我有一个较大
的
德语文本
数据
集
,它是由于一些编码问题而生成
的
,我无法从头开始重新创建该
数据
集
。所以,我发现在德语特殊字符应该是
字符串
"??“
的
情况下。出现在它所在
的
位置(我猜这是因为将UTF8视为Ascii或类似的东西)。 该
数据
集
采用一系列CSV文件
的
形式,其中包含大约180,000行。我
的
解决方案是识别所有包含"??“
的
唯一
浏览 0
提问于2012-01-03
得票数 0
回答已采纳
1
回答
elasticsearch
中
的
模糊查询与模糊逻辑有关吗?
elasticsearch
、
fuzzy-search
、
fuzzy-logic
、
fuzzy
正如标题所述,Elasticsearch
的
模糊查询究竟与模糊逻辑有什么关系?它背后有模糊系统吗?1 | / /\ \ ----------
浏览 1
提问于2016-01-16
得票数 1
回答已采纳
1
回答
创建在结点处合并链接
的
Sankey/ Alluvia图
javascript
、
r
、
ggplot2
、
d3.js
、
plotly
在我能找到
的
所有示例
中
,对于Sankey/ Alluvia图,我看到链接在节点上以这样一种方式聚集在一起,即节点
的
大小是连接到它
的
所有链接
的
总和。然而,我想将
匹配
过程可视化,其中2个
数据
库被
匹配
成3个新
的
数据
集
(A:来自
数据
集
1
的
数据
,不能
匹配
;B:
两个
数据
浏览 0
提问于2021-10-24
得票数 2
2
回答
R
中
与stringdist_join()
的
模糊联接,错误:下标赋值
中
不允许使用NAs
r
、
dplyr
、
merge
、
fuzzy-comparison
、
fuzzyjoin
首先,如果我
的
格式不好,我很抱歉,这是我第一次发帖,(也是编程和
R
的
新手)strin
浏览 2
提问于2018-11-02
得票数 8
2
回答
近似
匹配
r
我对
R
非常陌生,我一直在想,是否存在一个函数或包来进行
近似
(dateTime)
匹配
。intersect()函数提供了精确
匹配
的
列表,但是我对
近似
匹配
感兴趣。例如,我有
两个
具有dateTime值
的
数组,并且我希望有一个在这
两个
数组中发生
的
事件
的
列表,其差异最大为2秒。H:%M:%S", tz="UTC") intersect(arrayA,arrayB
浏览 4
提问于2017-05-05
得票数 0
回答已采纳
1
回答
如何在星火
数据
集
的
不同分区上进行自笛卡儿积?
scala
、
apache-spark
、
apache-spark-dataset
我需要比较
数据
集
2到2
的
不同行。理想情况下,我将对
数据
集
执行一个自笛卡尔积,然后删除重复
的
比较(因为A, B与B, A相同),最后我将执行一个map来决定每一对行是否相等。然而,它会导致大量
的
行,我负担不起它所需要
的
计算费用。
浏览 5
提问于2017-04-07
得票数 0
1
回答
在弹性搜索
中
必须和MUST_NOT查询
elasticsearch
我用包含
数据
"A“和"B”
的
元
数据
"User_Id“索引文档。我正在检查文件"A而不是B“。我无法得到想要
的
输出。我被限制不使用“查询
字符串
查询”和“不”操作符。
浏览 0
提问于2018-10-09
得票数 0
回答已采纳
1
回答
R
中
的
近似
字符串
匹配
r
、
string-matching
、
levenshtein-distance
为了我
的
研究,我必须
匹配
两个
包含基金信息
的
数据
集
。不幸
的
是,没有公共标识符。好
的
是,我在
两个
文档中都有一个标识符,用于文档编号,但是可以包含多个基金。如果文档中有多个基金(例如,20),我只能通过基金
的
名称进行
匹配
,而该名称有时会略有不同。注意,在任何
数据
集中,每个文档
的
资金数是相同
的
。levenshteinSim(string, stringV
浏览 2
提问于2013-04-22
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
NLP教程:用Fuzzywuzzy进行字符串模糊匹配
R语言必学包之stringr包
python基础操作——正则表达式
python正则表达式大全
正则表达式 锚点
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券