腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9867)
视频
沙龙
1
回答
Spark
数据
帧
滤波器
优化
、
、
在读取这些文件之后,我想对
数据
帧
执行过滤操作。 但在执行过滤操作时,会再次从s3存储桶下载
数据
。如何避免
数据
帧
重新加载? 在过滤操作之前,我已经尝试过缓存和/或持久化
数据
帧
。但是,
数据
还是从s3存储桶中以某种方式再次被拉了出来。var df =
spark
.read.json("path_to_s3_bucket/*.json") df.persist(StorageLevel.MEMORY_
浏览 6
提问于2019-09-05
得票数 0
7
回答
使用哪种查询来获得更好的性能,是在SQL中联接还是使用Dataset API?
、
、
在使用
spark
、*
Spark
sql join*和*
spark
dataframe join*从HBASE获取和操作
数据
时,哪个更快?
浏览 2
提问于2016-06-01
得票数 2
2
回答
什么是Apache
Spark
(SQL)中的Catalyst Optimizer?
、
我想知道更多关于在Apache ( PySpark )中使用Catalyst Optimizer的信息,在pyspark
数据
帧
中使用Catalyst Optimizer是可能的。
浏览 23
提问于2019-05-18
得票数 1
2
回答
优化
PySpark与pandas DataFrames之间的转换
、
、
、
、
我有一个13M行的pyspark
数据
帧
,我想把它转换成pandas
数据
帧
。然后,将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对
数据
帧
进行重新采样以进行进一步分析。从文献[,]中,我发现使用以下任何一行都可以加快pyspark到pandas
数据
帧
之间的转换:
spark
.conf.set("
spark
.sql.execution.arrow.pyspark.enabled", "
浏览 11
提问于2021-11-19
得票数 0
1
回答
Spark
ML:平滑输入
数据
、
、
、
、
通过使用
Spark
开发一个新的ML项目,我们希望首先平滑输入
数据
,以便有更少的噪音(然后更好的结果,因为我们可能用很少的
数据
进行训练)。奇怪的是,我在
Spark
-ML中找不到平滑
滤波器
(像卡尔曼
滤波器
一样)。
Spark
-ML用户是自己开发的,还是不先过滤输入
数据
?有这样的实现吗?
浏览 22
提问于2019-01-16
得票数 0
1
回答
Spark
Scala中的内存被填满
、
、
、
我正在运行这段代码: val city = listOfCities.value(i) val data = getDataFromQueries(redshiftConnector, sparkSession, city) pidData.p_l
浏览 11
提问于2017-03-02
得票数 2
2
回答
在
Spark
Dataframe上重复过滤?
、
、
我有一个大的
Spark
数据
帧
,其中包含各种财务信息,假设模式如下所示: Amount 0 10.000 5.001 15.15 我想要做的是迭代我的金额
数据</
浏览 13
提问于2020-07-22
得票数 1
1
回答
如何在Pyspark中不使用API连接表的情况下执行子查询?
、
、
在SQL代码中使用子查询具有显著的性能优势,但是想知道这在Pyspark中是否会由于DAG中的
优化
而不相关。因此,如果有人能够解释相对性能权衡,这将是有帮助的,如果有权衡的话。
浏览 1
提问于2020-04-08
得票数 0
2
回答
PySpark将IntegerTypes转换为ByteType进行
优化
、
、
、
我通过拼图文件将大量
数据
读入到
数据
帧
中。我注意到大量的列都有1,0,-1作为值,因此可以从Int类型转换为Byte类型,以节省内存。我是
Spark
的新手,可能不完全理解ByteType的内部原理,那么我应该如何开始将这些列设置为
Spark
的?
浏览 3
提问于2018-02-01
得票数 5
1
回答
为
spark
< 2.4以avro格式将
数据
帧
写入kafka主题?
、
、
、
考虑到我有一个
数据
帧
df和一个模式myschema,我如何继续以avro格式将
数据
帧
写入kafka主题? Q2。如果我们不考虑udf,有没有什么
优化
的方法?大多数可用的解决方案都是针对
spark
> 2.4的,它们有内置的avro函数可供使用。
浏览 4
提问于2020-05-19
得票数 0
1
回答
pyspark使用sql查询并执行group by
优化
、
在
spark
中,人们也可以使用
spark
api函数来编写sql查询。应该始终使用ReduceByKey而不是groupbykey,因为它可以防止更多的混洗。我想知道,当您通过注册
数据
帧
来使用sql查询时,我们如何使用reduceby?在sql查询中,只有group by,没有reduce。在内部,使用reduceBykey比使用group by更
优化
吗?
浏览 21
提问于2020-09-07
得票数 0
1
回答
计数和收集操作在空的
spark
数据
帧
上占用了大量时间
、
我用
spark
.createDataFrame([],schema)创建了一个空的
spark
数据
框,然后从列表中添加行,但是访问
数据
框( count-collect)花费了太多的时间,而不是在这个
数据
框上对于从Csv文件创建的
数据
框上的1000行,函数dataframe.count()耗时300ms,但对于从模式创建的空
数据
框,则需要4秒。这里的差异是从哪里来的?FloatType(),True), StructField(
浏览 28
提问于2019-07-02
得票数 0
回答已采纳
1
回答
在
spark
/scala中的另一个
数据
框中查找多个列值
、
、
、
我有两个
数据
帧
A和B。A有30列- reason1,reason2.......reason30现在,我需要在B中查找所有以reason*开头的列,并在
数据
帧
A的一列中获取相应的值。因此,最终的
数据
帧
将具有reason1,reason2.......reason30, value 我试图将每一列与其他
数据
帧
连接起来,但这不是一种整洁的方法。请帮助我使用
spark
/scala获得<em
浏览 9
提问于2021-05-17
得票数 0
1
回答
Delta Lake:性能挑战
、
方法1:我的输入
数据
是一堆json文件。经过预处理后,输出为pandas
数据
帧
格式,该格式将写入Azure SQL
数据
库表。方法2:我已经实现了delta lake,其中输出pandas
数据
帧
被转换为
Spark
数据
帧
,然后将
数据
插入到分区的Delta Table中。这个过程很简单,而且将pandas
数据
帧
转换为
spark
数据
帧
所
浏览 8
提问于2020-10-28
得票数 1
2
回答
在awaitResult中引发
Spark
数据
帧
联接异常
、
、
、
我正在尝试加入两个
数据
帧
,一个大约是1000万条记录,另一个大约是其中的1/3。at org.apache.
spark
.sql.execution.SparkPlan$$anonfun$executeQuery$1.apply(SparkPlan.scala:135)at org.apache.
spark
.sql.execution.FilterExec.consume(basicPhysicalOp
浏览 5
提问于2017-11-21
得票数 0
2
回答
DataFrames在转换工作流中的持久化
我试图在3 DataFrames上运行一系列的转换。每次转换之后,我希望持久化DF并将其保存到文本文件中。我正在做的步骤如下。创建DF1创建DF3(没有坚持,还没有保存)通过加入DF1和DF2创建结果-df1保存到文本文件通过将结果-DF1 1和DF3连接起来创建结果-df2保存到文本文件通过将结果-df2和DF4连接起来创建结果-df3保存到文本文件在Step1创建的任务数量是601 在Step2创建的任务数为10
浏览 5
提问于2016-02-20
得票数 0
1
回答
如何在
Spark
中加速大
数据
帧
连接
、
、
我在
Spark
2.4中有两个
数据
帧
,它们的大小几乎相同。每个都有大约4000万条记录。一种是通过简单地从S3加载
数据
帧
生成的,另一种是加载一堆
数据
帧
并使用sparkSQL生成大型
数据
帧
。然后我将这两个
数据
帧
多次连接到多个
数据
帧
中,并尝试将它们作为CSV写入S3……然而,我看到我的写入时间超过了30分钟,我不确定它是否正在重新评估
数据
帧<
浏览 12
提问于2020-05-14
得票数 0
回答已采纳
3
回答
Dataframe API与
Spark
.sql [重复]
、
、
这个问题在这里已经有答案了: 在
Spark
SQL中编写SQL与使用Dataframe API(4个答案) 4天前就关门了。用Dataframe API格式而不是
Spark
.sql查询编写代码有什么显著的优势吗? 我想知道催化剂
优化
器是否也会对
spark
.sql查询起作用。
浏览 103
提问于2021-02-25
得票数 0
回答已采纳
4
回答
与
spark
中的所有其他任务相比,最后2/3的任务需要大量的时间
、
、
、
、
程序在
Spark
上成功运行,但我面临的问题是在70个分区中,68个分区的时间比最后2个分区的时间缩短了约20%。我已经检查了我的
数据
在所有分区上是否均匀分布,甚至还检查了不同的样本
数据
。另外,我使用persist(StorageLevel.MEMORY_AND_DISK_SER)为所有
数据
帧
运行了代码,并在不再需要这些
数据
帧
时立即取消它们的持久化。下面是在sparkConf中设置的 sparkConf.set("
spark
.driver.al
浏览 29
提问于2016-09-26
得票数 1
1
回答
Spark
RDD和
数据
帧
转换
优化
、
、
、
我是
Spark
的新手,有一个关于RDDs和Dataframe的高级问题,如果我没有弄错的话,它们是建立在RDDs之上的: 我知道有两种类型的操作可以在RDD上完成,转换和操作。考虑到RDD在内存中,我想知道是否有可能
优化
这些RDD消耗的内存量,以下面的例子为例: KafkaDF = KafkaDFRaw.select( KafkaDFRaw.key,", udf(time.time, DoubleType())()) 我有一个KafkaDFRaw
数据
帧
,并生成一个名为KafkaDF的新KafkaD
浏览 16
提问于2020-08-09
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark SQL在字节跳动数据仓库领域的优化实践
Spark性能优化:开发调优篇
走进大数据 Spark-Spark streaming
大数据:Spark
Spark提交参数说明和常见优化
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券