PySpark -联接两个RDDs无法联接-值太多，无法解包

、、、、

我在HDFS中有两个文件(非常简单)：测试： 1,Team13,Team3 test2： 11,Player1,Team132,Player1,map) for i in test_join.collect(): print(i) 但是当我尝试查看join RDD时，我得到了以下错误： File "/usr/lib/spark/python/pyspark

浏览 5提问于2020-10-30得票数 0

回答已采纳

1回答

在自定义函数火花上连接两个RDDs

、、、、

是否可以在自定义函数上连接星火中的两个RDDs？我有两个大的RDDs，一个字符串作为键。我不想使用经典的联接，而是使用一个自定义函数，比如： return Lev.distance(a,b) < 2 result_rdd = rdd1.join我写了类似这样的东西，但是pyspark将无法在我的小型集群上分发工作。

浏览 2提问于2017-04-07得票数 3

回答已采纳

1回答

数据库中超过内存的GC开销限制

、、

我试着运行我的Splink库来获取不同数据源之间的数据链接和去重复，这些数据源有数百万条记录，但不幸的是，它们要么正在走出内存错误，要么可能是由于容器超过阈值，或者是由于网络问题。我也附加了我的集群配置截图。有人能帮我解决这个问题吗？

浏览 3提问于2020-12-08得票数 1

1回答

火花盐析:用随机负值替换列中的空值

、、

我有许多正在执行联接的列，这些列有时可能包含数十亿行空值，因此我想对这些列进行盐化，以防止在Jason的文章：中提到的联接后出现倾斜。我在Python中找不到类似的例子，语法也不一样，我无法理解如何翻译它。我大概有：big_neg = -200 for column in key_fields: #key_fields is a list

浏览 2提问于2019-03-14得票数 3

1回答

为什么火花洗牌阶段对于1.6MB洗牌写入速度这么慢，以及2.4MB input?.Also为什么洗牌只发生在一个执行器上?我正在运行一个每个8核的3节点集群。 *JavaPairRDD<String, String> javaPairRDD = c.mapToPair(new PairFunction<String, String, String>() { public Tuple2<String, String> call(String arg0) throws Exception {

浏览 0提问于2018-06-11得票数 3

5回答

如何替换视图中的左联接以便我可以有一个索引视图？

、、、

我已经对数据库中的表进行了规范化，为了使其非规范化，我从两个表中创建了一个视图。当我试图在视图上创建聚集索引时，它不允许我这样做，因为视图是用左外部联接创建的。我使用左联接，因为我希望在结果视图中显示空值，就像在前面的文章中建议的那样。为什么在外部连接或自联

浏览 6提问于2011-06-25得票数 22

回答已采纳

1回答

无法在pyspark中联接两个RDD

、、、

我有两个名为df1和df2的数据帧，但当我尝试连接它时，它无法连接。让我为每个数据帧建立我的模式，并为每个数据帧提供示例输出。当我尝试使用以下命令连接两个节点时：，没有错误，但数据帧看起来像这样，它们有重叠的列： DataFrame[BibNum

浏览 2提问于2018-04-17得票数 0

1回答

在PySpark中，如何基于另一个DataFrame中的查找填充一个新列？

、、、

对于Spark和PySpark，我正在尝试通过在另一个DataFrame中查找信息来在DataFrame中添加一个字段/列。过去几个小时，我一直试图阅读RDDs、DataFrames、DataSets、地图、联接等方面的知识，但这些概念对我来说仍然是新的，而且我仍然很难理解这一切。Jim Bob | Editor |+----+-------------+-------------+ 数据的实际卷是两个输入表的我最初的想法是向ID

浏览 1提问于2019-06-18得票数 2

回答已采纳

4回答

从匹配记录中删除，并添加不相等的数据

、、

我有以下表格：表a： Name T2 T4 表b： Name T2 T4T6 我需要从表a中选择全部，并从表b中添加未在表a中的内容，结果如下： T1 T3T5 T6 感谢你的帮助

浏览 27提问于2017-05-07得票数 0

回答已采纳

1回答

当其中一个表中没有记录时，记录不会显示。

、、

我正在使用Join查询从多个正在工作的表中获取数据。我尝试了下面的代码public function Memberinfo(){ $getDetails = array('members.member_id'=>$this->session->userdata['login_session']['id'],'members.is_st

浏览 3提问于2019-01-11得票数 0

我试图使用inner_join合并两个data.frames。我面临的问题是，合并结果只包含在其中一个data.frames中的变量。我希望看到两个数据帧以一种不匹配的观测被删除的方式被合并，并且这两个数据帧中的变量仍然包含在其中。在我的例子中，这两个数据帧名为cpds和gtd。我确信我有两个唯一的标识符(在我的例子中是state & year)，这两个变量名在这两个数据帧中是相同的。尽管结果确实降低了所有不匹配的观测值；但是，它只包含在其中一

浏览 6提问于2017-03-13得票数 0

回答已采纳

2回答

如何使用具有多个值的rdd.map/groupByKey？

、、、

目前，我正在学习groupByKey()，我不太理解使用多个值使用()的语法。假设我想在(类别，数量)的模式中找到数量最高的产品类别，这似乎很简单。从概念上讲，我理解我必须首先使用groupByKey()来实现类似于(类别、价格、数量)的，因为groupByKey()似乎不能与3个值一起工作(ValueError:太多的值需要解包(预期的2)。[('Category_1', <pyspark.resultiterable.ResultIterable objec

浏览 5提问于2022-06-02得票数 0

1回答

如何为每个循环通过数据文件中的两列？

、、

我有一个包含7列的dataframe，我想同时循环其中两个列来比较每行中的值。for watch, diary in df.iloc[:, watchCol], df.iloc[:, diaryCol]:编辑：这两个列都包含日期时间。我需要比较这两个值，如果差异在某个范围内，则将值从watchCol复制到另一列，否则将移

浏览 1提问于2017-03-01得票数 0

回答已采纳

1回答

如何通过日期连接两个表？

、

我将两个表从Excel工作簿导入到Access中。这两个表中都没有主键。我尝试了在两个表中使用date的主键进行连接，但也没有返回任何结果。使用QBE网格创建查询。

浏览 28提问于2019-11-25得票数 0

1回答

Oracle链接服务器顶层N语法

、、、、

在Oracle中，语法是一旦我的Server 2012查询有两个以上的联接，我的导致下列错误用于链接服务器"BIS“的OLE DB提供程序"OraOLEDB.Oracle”返回消息"ORA-01403:未找到数据“无法从链接服务器"BIS“的如果我把top 100取出来，它就能工作，但是在我们的网络中拖拽了太多的数据。此

浏览 1提问于2014-07-14得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在自定义函数火花上连接两个RDDs

数据库中超过内存的GC开销限制

火花盐析:用随机负值替换列中的空值

火花洗牌写得太慢了

如何替换视图中的左联接以便我可以有一个索引视图？

无法在pyspark中联接两个RDD

在PySpark中，如何基于另一个DataFrame中的查找填充一个新列？

从匹配记录中删除，并添加不相等的数据

当其中一个表中没有记录时，记录不会显示。

我能看到子表格中的内容，但其他人看不见

用主键而不是外键生成的JPA连接表

LINQ的联接操作产生零项

在pyspark中读取json文件

带有两个操作的Python一行if语句

为什么结果在`inner_join`之后包含不完全变量？

如何使用具有多个值的rdd.map/groupByKey？

如何为每个循环通过数据文件中的两列？

如何通过日期连接两个表？

Oracle链接服务器顶层N语法

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐