在不更改Spark属性的情况下执行连接时未广播数据帧的示例_php函数在处理大量数据和输出时执行速度非常慢。如何在不更改php.ini或max_execution_server设置的情况下快速完成 - 腾讯云开发者社区

scala、apache-spark、apache-spark-sql

根据documentation的说法，如果这是一个“蜂窝元存储表”并且DataFrame大小小于10MB，则默认广播一个小的DataFrame。如何在本地spark-shell中创建尚未计算统计数据的表？到目前为止，我在spark.read.csv、Seq(("SOF")).toDF("name")和spark.range(1000)上尝试了df df.join(df, Seq("na

浏览 8提问于2019-09-17得票数 1

2回答

知道spark中广播变量的大小

scala、apache-spark、size、broadcast

我在spark(scala)中广播了一个变量，但由于数据的大小，它给出的输出如下所示 at java.lang.StringCoding$StringDecoder.decode(StringCoding.java:149) 当在较小的数据库上运行时我想知道这个<e

浏览 1提问于2016-12-27得票数 2

2回答

Spark最佳方法查找Dataframe以提高性能

scala、apache-spark、cassandra、datastax-enterprise

数据帧A(百万条记录)其中一列是create_date，modified_date当前方法： Select a.

浏览 16提问于2016-08-27得票数 1

2回答

Spark:线程"main“org.apache.spark.sql.catalyst.errors.package中的异常

scala、apache-spark

在运行我的spark- my代码时，我在执行时得到了这个错误。我只是好奇地想知道这个TreeNodeException错误是什么。Exception in thread “main” org.apache.spark.sql.catalyst.errors.package

浏览 2提问于2017-10-25得票数 8

3回答

Spark异常“无法广播大于8 8GB的表”，'spark.sql.autoBroadcastJoinThreshold'：'-1‘不工作

apache-spark、pyspark、apache-spark-sql、broadcast、pyspark-dataframes

在我们的一个Pyspark作业中，我们有一个场景，我们在一个大的数据帧和相对较小的数据帧之间进行连接，我相信spark正在使用广播连接，我们遇到了以下错误 org.apache.spark.SparkException'：'-1‘设置为spark submit的一部分来禁用广播</e

浏览 752提问于2020-04-22得票数 0

2回答

Spark -如何在列的基础上以最小的混洗重新划分数据帧？

apache-spark、apache-spark-sql

我们有多个数据帧。其中一个数据帧是主数据帧，它使用左-外连接与其他数据帧连接。所有这些数据帧都连接在4列上(比如col1、col2、col3、col4)。为了减少数据混洗，目前我们正在对4个连接列上的所有数据帧进行重新分区，然后连接这些数据</em

浏览 2提问于2019-02-08得票数 2

2回答

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别？

performance、apache-spark、hadoop、apache-spark-sql

spark.sql.shuffle.partitions和spark.default.parallelism有什么不同我尝试在SparkSQL中设置这两个任务，但第二阶段的任务号总是200。

浏览 1提问于2017-08-16得票数 95

回答已采纳

1回答

仅使用Spark时广播变量的使用

scala、apache-spark、apache-spark-sql

当使用spark时，我们可以使用广播变量来优化火花分配不变状态的方式。 1)广播变量是如何内部工作的？我的假设是:对于用于在dataset上执行操作的每一个闭包，它所引用的所有变量都必须序列化、通过网络传输并与任务一起还原，以便可以执行闭包。当从闭包中引用广播变量句柄时，就像上面所说的那样，它将像其他变量一样被序列化--只是<e

浏览 0提问于2020-11-04得票数 3

回答已采纳

2回答

在星火中，广播哈希连接和广播嵌套循环连接有什么区别？

apache-spark

在星火中，广播哈希连接和广播嵌套循环连接有什么区别？在哪种情况下火花会选择哪个和哪个更快？

浏览 1提问于2020-01-01得票数 4

3回答

Spark SQL广播哈希连接

apache-spark、apache-spark-sql

我正在尝试使用SparkSQL对数据帧执行广播散列联接，如下所示：我遇到的问题是，我需要使用SQL来构造我的sparkSQL (我需要用一个ID列表连接大约50个表，并且不想手动编写这个SQL语句)。How do

浏览 7提问于2016-05-27得票数 16

回答已采纳

3回答

Spark中广播对象的最大大小是多少？

apache-spark、dataframe、apache-spark-sql、broadcast

使用Dataframe 函数或SparkContext 函数时，可以调度给所有执行器的最大对象大小是多少？

浏览 1提问于2016-12-09得票数 16

回答已采纳

2回答

spark中sc.broadcast与广播函数的区别

scala、function、apache-spark、apache-spark-sql、broadcast

我还知道在Spark函数中有一个名为broadcast的函数。我应该用哪一个来广播参考/查表？

浏览 3提问于2016-10-29得票数 4

回答已采纳

2回答

广播加入火花不工作左外

apache-spark、pyspark、apache-spark-sql、amazon-emr

我有一个小表(2k )记录和一个大表(5mil)记录，我需要从小表中获取所有数据，并且只从大表中匹配数据，为了实现这一点，我执行了下面的查询select /*+ broadcast(small)*/ small.* From small left outer join large，虽然查询返回正确的结果，但是当我检查查询计划时，它显示了排序合并广播散列连接。有什么限制，如果小桌子是左表，我们不能广播，然后是什么出路。

浏览 1提问于2020-07-04得票数 1

3回答

为什么连接失败与"java.util.concurrent.TimeoutException:期货超时后[300秒]“？

scala、apache-spark、join、apache-spark-sql

我用的是火花1.5。我有两份表格的数据：res1: org.apache.spark.sql.DataFrame = [basket_id: string,请注意，我在linkPersonItemLessThan500DF上使用的是linkPersonItemLessThan500DF，因为我打算稍后加入这两者。我现正跟进上述守则的内容如下： val userTripletRankDF = link

浏览 5提问于2016-12-13得票数 71

回答已采纳

3回答

如何在Spark中访问广播的DataFrame

scala、apache-spark

我已经创建了两个数据帧，这是从蜂窝表(PC_ITM和ITEM_SELL)和大的，我经常使用的SQL查询注册为table.But，因为它们是大的，这需要很多时间来获得查询result.So我已保存为拼图文件，然后读取它们和注册为临时table.But我仍然没有得到良好的性能，所以我广播了这些数据帧，然后注册为表，如下所示。ITM_SELL_BC.value ITM_SELL_DF1.registerAsTempTable(ITM_SEL

浏览 0提问于2016-01-22得票数 11

1回答

PySpark LSH approxSimilarityJoin花了太多时间

python、apache-spark、pyspark、euclidean-distance、approximation

我想为下面的数据集找到Jaccard索引，下面是我的方法：1 [dde,jhb..]db_matches.write.parquet(file_location)我有250 executors，这是我的星火配置：

浏览 11提问于2022-10-11得票数 0

1回答

如果内存无法保存数据，广播DataFrame是否会将数据泄漏到磁盘？

apache-spark

我有个关于星火广播加入的问题。默认情况下，广播哈希连接大小为10 is。 case1:集群中有足够的内存来保存广播DF.。如果DF大小大于默认的广播连接大小，假设15 MB是DF大小，如果我在集群中的所有节点上广播这个DF，它还会执行广播连接吗？由于15 DF大于默认的广播<

浏览 9提问于2020-07-26得票数 0

3回答

在Spark中将多个小表与大表连接的最佳方法

scala、apache-spark、apache-spark-sql

我正在使用spark执行连接倍数表。其中一个表非常大，其他表很小(10-20个记录)。实际上，我想使用包含一对键值的其他表来替换最大表中的值。我的问题是；，这是加入表的最佳方式。(假设有100个或更多的小表) 1)收集小数据，把它转换成地图，广播地图，一步一步地转换大数据。bigdf.transform(ds.map(row => (small1.get(row.col1),.....) 2)

浏览 1提问于2018-02-13得票数 3

1回答

替代other_column中WHERE列的快速Spark

sql、pyspark、where-in

我正在寻找一种快速的PySpark替代方案WHERE foo IN (SELECT baz FROM bar) 预先收集到Python列表中绝对不是一个选择，因为处理的数据帧非常大，收集相对于我提出的其他选择占用了大量的时间。因此，我想不出使用原生PySparkian where(col(bar).isin(baz))的方法，因为在这种情况下，baz必须是一个列表。，并且当在WHERE中处理大量条件时<

浏览 2提问于2020-05-18得票数 2

1回答

星星之火的广播哈希连接

scala、apache-spark、spark-dataframe

我试图在Spark1.6.0中进行广播哈希连接，但没有成功。sqlContext.read.parquet("path2") 尽管我使用的是广播提示，但是DF上的解释显示了SortMergeOuterJoin

浏览 9提问于2017-12-10得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云