Spark levenshtein在字符串上左连接，匹配一个数据然后中断

、、、

val resultDF = todoDF.join(sourceDF, "left_outer") resultDF.show() 结果表明，存在多个相同的string_left，这意味着Spark循环每个可以string_left匹配一个string_rig

浏览 17提问于2020-12-07得票数 0

回答已采纳

2回答

新的双音识别(力量字母数字，“非字”输入？)

、

我希望构建一个应用程序，根据调用者的特定产品请求获取产品库存信息。所有这些产品都是字母数字，不使用任何单词，这是问题的一部分。SpeechResult BBN 5009 okay 我并不是在寻找完美的结果，而是计划删除空格的输入，然后运行Levenshtein算法来匹配最接近的项。如果结果是BBN5009K，，我相信我能够与DBN5009K相匹配

浏览 5提问于2017-06-02得票数 2

1回答

在PySpark中不使用for循环的情况下，查找DataFrame列中存在的类似字符串

、、、

我有一个DataFrame，其中包含一个带有字符串的列。我想找到类似的字符串，并用一些标志来标记它们。我正在使用python-Levenshtein模块中的函数，并希望将比率大于0.90的字符串标记为“相似”。以下是我拥有的DataFrame的一个示例： (0, "Hi I heard about Spark"),&qu

浏览 0提问于2019-11-17得票数 0

1回答

大数据结构

empColumns = ["emp_id"，"name"，"superior_emp_id"，"year_joined"，\模式= spark.createDataFrame”，10)，\] deptCo

浏览 2提问于2021-10-28得票数 0

3回答

将字符串与错误匹配的快速方法

、、、、

我有一个庞大的字符串列表(城市名称)，我想找到一个城市的名称，即使用户做了一个错误。用户键入"chcago“，系统就会找到"Chicago”。当然，我可以为列表中的所有字符串计算查询的Levenshtein距离，但这会非常慢。有什么有效的方法来执行这种字符串匹配吗？

浏览 6提问于2015-10-31得票数 9

回答已采纳

1回答

火花作业陷入从Oracle DB导入的最后阶段-数据没有倾斜。

、、

我试图从Oracle中提取数据，并使用ApacheSpark2.3.1将其放到AWS S3中。这份工作一直顺利进行到最后阶段，并被困在那里。我不认为数据是倾斜的，因为每个阶段都有相同数量的记录。.load() DF.write.mode("overwrite").parquet(path)spark.driver.memory

浏览 0提问于2018-09-10得票数 3

1回答

精度为2或畸形数的RegEx -十进制

、、

我需要一个RegEx模式，它将在一个有效的十进制数字字符串上匹配两个小数位，或者只有在格式错误的数字是一个整数时，它才能与小数位匹配。比赛：不匹配：

浏览 4提问于2017-09-27得票数 2

回答已采纳

1回答

在pyspark中连接两个表，多个条件，左连接？

、、、

我下面的代码是连接两个表(左连接)。问题是我必须做两次相同的连接。第一个连接发生在log_no和LogNumber上，它返回左表(table1)中的所有记录，以及右表(table2)中匹配的记录。第二个join与LogNumber在log_no的子字符串上做同样的事情。例如，777将与表2中的777匹配，777-A没有匹配，但当使用子字符串函数7

浏览 87提问于2020-11-06得票数 0

2回答

我有一个小表(2k )记录和一个大表(5mil)记录，我需要从小表中获取所有数据，并且只从大表中匹配数据，为了实现这一点，我执行了下面的查询select /*+ broadcast(small)*/ small.* From small left outer join large，虽然查询返回正确的结果，但是当我检查查询计划时，它显示了排序合并广播散列连接。有什么限制，如果小桌子是左表，我们不能广播，然后是什么出路。

浏览 1提问于2020-07-04得票数 1

3回答

字符串比较算法，相关性，有多少“相似”的两个字符串

、、

对于相同的数据(公司)，我有两个信息源，我可以通过一个唯一的ID (合同号)将它们连接在一起。第二个不同来源的存在是因为这两个源是手动、独立地更新的。因此，我在两个表中有一个ID和一个公司名称。我需要提出一个算法来比较两个表中相同的ID的名称，并通过一个变量对所有公司进行排序，该变量指示字符串有多不同(突出显示最不同的字符串，将其放在列表的顶部)。我看了简单的Levenshtein距离计算算法，但它

浏览 1提问于2010-09-16得票数 0

回答已采纳

3回答

匹配Core数据存储中的近似字符串

、、、

我目前正在编写的核心数据应用程序有一个小问题。我有两个不同的模型，contexts和peristent stores。一个是我的应用程序数据，另一个是与我相关的信息的网站。大多数情况下，我会将应用程序中的一条记录与另一条记录进行精确匹配。然而，有时我不得不退回到模糊字符串匹配来连接这两个记录。我在试着匹配歌名。我的字符串可以以任何字符开头，有一堆特殊字符<

浏览 0提问于2009-05-19得票数 12

1回答

Levenshtein vs MATCH与其他人的最佳MySQL字符串匹配

、

我有一个大约190万行的数据库。我的数据库细节然后，我通过PHP在结果行服务器端使用一个levenstein()距离函数来获得与字符串最接近的匹

浏览 0提问于2015-05-12得票数 3

回答已采纳

1回答

匹配Server中的实体以替换迭代Python脚本

、、、

我有一个由大约2,200万家公司组成的SQL (MS )数据库(在我的代码中称为target_db )。，我有另一个公司列表(在我的示例中称为输入)，我希望根据公司名称的近似匹配来分配ID_number。，为我的示例中的每一家公司执行以下操作：连接到数据库并过滤target_db，只获得以相同的3个字母开头、长度相似(+- 7个字符)且Soundex差异为4的名称。使用所有可能的匹配来计算levenshte

浏览 0提问于2018-02-10得票数 3

6回答

乔治与乔治的SQL搜索

、、

我正在尝试使用SQL进行搜索查询；我的页面包含一个输入字段，该字段的值被获取并简单地连接到我的SQL语句中。然后，它根据用户键入的内容返回结果；在本例中是Georges。但是，它只查找准确键入为乔治·布朗(带's')的公司的条目。我试图做的是返回一个结果集，其中不仅包含带有Georges的条目，而且还包含George (no 's')。有没有办法让这个搜索变得更灵活，这样它就能找到乔治和乔治的搜索结果？

浏览 7提问于2012-10-23得票数 1

1回答

向CSV添加标头并在Node.js中返回具有匹配字符串的行

、、、

我试图在匹配的字符串上返回一个行值。这种方法似乎也不解析整个文件，而是

浏览 1提问于2018-06-28得票数 0

回答已采纳

2回答

对R中的字符串进行聚类(可能吗？)

、、、

我有一个数据集，其中有一列当前被视为具有1000+级别的因子。这些是列的值。我想要清理这些数据。一些值是像"-18 +5= -13“和"5 - 18 = -13”这样的字符串，我希望集群对这些字符串进行不同的分组，而不是说"R3no4“。这在R中是可能的吗？数据集来自，我想从这个列创建有意义的新列，以帮助创建预测模型。例如，如果知道字符串是否包含某个操作，或者它是否不包含操作，而是描述问题，那就更好了。我的数据框如下所示

浏览 1提问于2011-12-12得票数 4

回答已采纳

1回答

如何在有序键值存储中进行大于内存字典的模糊字符串匹配？

、、

我正在寻找一种算法和存储模式，以便在比内存更大的字典上进行字符串匹配。我最初的尝试是受的启发，存储字典中每个单词的触发器，例如，单词apple在索引时被分为$ap、app、ppl、ple和le$。然后查询时间，我对必须匹配的输入字符串执行相同的操作。我在数据库中查找这些三元组中的每一个，并将候选单词存储在与其中匹配的三元组的数量相关联的映射中。然后，我继续计算每个候选者之间的levensh

浏览 2提问于2019-09-23得票数 0

1回答

左联接错误: org.apache.spark.sql.AnalysisException:检测到逻辑计划之间的左外部联接的隐式笛卡尔乘积

、、

*编辑 df_joint = df_raw.join(df_items,on='x',how='left') Apache Spark 2.4.5中出现标题异常 df_raw有2列"x“、"y”的数据，而df_items是模式的空数据框，还有其他一些列左连接发生在null的值上，它应该从第一个dataframe中获取整个数据，并从第二个dataframe中获取空列。当"X“是浮点数时，它是完全正常

浏览 31提问于2020-12-20得票数 0

1回答

将数据库从一个MVC项目迁移到另一个项目

、、

因此，我创建了一个新项目，我需要将数据库提取到我的新项目中，但不知道如何获取数据库。我正在使用数据优先方法、实体框架和IIS本地主机。更新：I从旧项目的web.config复制连接字符串，并将其粘贴到新项目的连接字符串上(注意，我首先在新项目中创建了ado.net实体数据模型，然后将字符串粘贴到其连接字符串上)。现在，在

浏览 1提问于2015-08-08得票数 0

3回答

在Ruby中检测类似的发音词

、

在Ruby中是否有任何库，或者您所知道的任何方法，能够确定两个单词之间的相似性？(要么布尔值是/不是相似的，要么是数值上的40%相似) 编辑：额外的加分，如果有一个简单的方法‘插入’不同的方言或语言！

浏览 5提问于2010-03-28得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

新的双音识别(力量字母数字，“非字”输入？)

在PySpark中不使用for循环的情况下，查找DataFrame列中存在的类似字符串

大数据结构

将字符串与错误匹配的快速方法

火花作业陷入从Oracle DB导入的最后阶段-数据没有倾斜。

精度为2或畸形数的RegEx -十进制

在pyspark中连接两个表，多个条件，左连接？

广播加入火花不工作左外

字符串比较算法，相关性，有多少“相似”的两个字符串

匹配Core数据存储中的近似字符串

Levenshtein vs MATCH与其他人的最佳MySQL字符串匹配

匹配Server中的实体以替换迭代Python脚本

乔治与乔治的SQL搜索

向CSV添加标头并在Node.js中返回具有匹配字符串的行

对R中的字符串进行聚类(可能吗？)

如何在有序键值存储中进行大于内存字典的模糊字符串匹配？

左联接错误: org.apache.spark.sql.AnalysisException:检测到逻辑计划之间的左外部联接的隐式笛卡尔乘积

将数据库从一个MVC项目迁移到另一个项目

在Ruby中检测类似的发音词

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐