腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
读
表
性能
优化
、
我正在创建一个
spark
作业,我想知道通过
spark
.sqlContext().read("table")与
spark
.sql("select * from table")
读
表
是否有任何
性能
优势,或者
spark
的逻辑计划是否无论如何都会得到相同的结果?
浏览 12
提问于2019-02-20
得票数 0
2
回答
spark
的随机
读
和随机写之间的区别是什么?
、
我需要运行一个有大量数据的
spark
程序。我正在尝试
优化
spark
程序,并通过
spark
UI工作,试图减少Shuffle部分。我在互联网上搜索过,但找不到关于它们的具体细节,所以想看看是否有人可以在这里解释它们。
浏览 3
提问于2016-03-06
得票数 13
1
回答
google集群的
优化
、
提高dataproc cluser
性能
的最佳软件配置是什么?我知道hadoop/
spark
集群的内部基础设施
优化
。它是否适用于dataroc集群或其他需要的东西?为了
优化
时间,我尝试了
spark
的数据缓存/持久化。但它没那么有用。是否有任何方法指示激发整个资源(内存、处理能力)属于该作业,以便它能够更快地处理它? 任何在时间和价格
优化
方面的
浏览 0
提问于2018-06-01
得票数 0
回答已采纳
1
回答
通过添加查询参数
优化
Spark
连接读取时间
、
、
、
、
目前,我正在阅读整个表格,但这对
性能
不利。为了
优化
性能
,我想向下面的
spark
.read配置传递一个查询。例如,从我的
表
中选择*,其中记录时间>时间戳。这个是可能的吗?我该怎么做?DF =
spark
.read \ .option("url", jdbcUrl
浏览 9
提问于2022-08-31
得票数 0
回答已采纳
1
回答
分析视图数据库中的
表
优化
、
、
、
在执行Analyze table Compute Statistics之后,我的连接在Databricks Delta
表
中的
性能
变得更好。与在
Spark
sql中一样,不支持sql分析视图。我想知道,如果我在使用Analyze table compute statistics的同一个
表
上创建了视图,查询
优化
器是否会
优化
查询。
浏览 2
提问于2020-02-20
得票数 0
2
回答
如何高效地将MySQL
表
读入Apache
Spark
/PySpark?
、
、
、
我有一堆MySQL
表
需要执行一些分析。我目前已经将这些
表
导出为CSV文件,并将它们放到HDFS上。现在,我从PySpark上的HDFS中将每个
表
读取到不同的RDDs中进行分析。pyspark.sql import SQLContextdf = sqlContext.read.format('com.databricks.
spark
.csv').options(header='true', inferschema='t
浏览 1
提问于2015-12-07
得票数 2
1
回答
spark
dataframe到rdd的转换需要很长时间
、
、
我正在将一个社交网络的json文件读入
spark
。我从这些数据中得到一个数据帧,我将其分解以获得对。这个过程运行得很完美。val social_network =
spark
.read.json(my/path) // 200MB val exploded_network = social_network.
浏览 1
提问于2017-03-20
得票数 3
3
回答
HBASE火花与HDFS火花
、
、
、
我知道HBASE是一个柱状数据库,它将
表
的结构化数据按列而不是按行存储到HDFS中。我知道
Spark
可以从HDFS
读
/写,还有一些用于
Spark
的HBASE连接器现在也可以读写HBASE
表
。它只取决于程序员的能力,或者有任何
性能
原因来这样做?是否有星火所能做的事,而HBASE却无法做到? 2)源于前面的问题,什么时候应该在HDFS和
SPARK
之间添加HBASE,而不是直接使用HDFS?
浏览 4
提问于2016-08-13
得票数 9
回答已采纳
3
回答
禁用
spark
catalyst
优化
器
、
、
、
、
为了提供一些背景知识,我尝试在使用和不使用
Spark
的催化剂
优化
器的
Spark
上运行TPCDS基准测试。对于较小数据集上的复杂查询,我们可能会花费更多的时间来
优化
计划,而不是实际执行计划。因此,我想测量
优化
器对查询整体执行的
性能
影响 有没有办法禁用部分或全部的
spark
catalyst
优化
规则?
浏览 4
提问于2018-05-10
得票数 10
2
回答
Spark
忽略TBLPROPERTIES中指定的parquet.compression属性
、
、
我需要从
Spark
创建一个Hive
表
,该
表
将采用拼花格式和快速压缩。'='SNAPPY') as select * from OLD_TABLE")| Parameteras parquet tblproperties ('parquet.compression'='ABCDE') as select * from OLD_TABLE&qu
浏览 3
提问于2016-04-29
得票数 4
回答已采纳
1
回答
Spark
中分发BY和Shuffle的区别
、
、
、
我试图理解Distribute by子句,以及如何在
Spark
-SQL中使用它来
优化
Sort-Merge Joins。根据我的理解,
Spark
优化
器将根据连接键(洗牌阶段)分发两个参与
表
(连接)的数据集,以便在同一个分区中共同定位相同的键。那么,如何使用distribute by来改善join
性能
呢?还是在通过加载过程将数据写入磁盘时使用distribute by更好,以便以后使用该数据的查询不必对其进行洗牌,从而从中受益?请您用一个真实的例子来解释一下如何在
Spark
浏览 0
提问于2019-08-09
得票数 2
1
回答
SQL数据库设计-单列表-选择效率?
、
、
、
我有多个
表
(~20),每个
表
都有一个复合主键,它根据
表
的不同由Time (int)和( ProductID,int)或ServiceID (int)组合而成。我理解,为了最大限度地提高
读
/SELECT效率,我通常应该解除数据的规范化,以防止昂贵的
表
连接。因此,考虑到这一点,如果我想
优化
阅读
性能
,应该 有3个单列表,包含所有可能的Time、ProductID和ServiceID值。然后在每个
表
中将这些作为外键。保持所有20个
表</e
浏览 1
提问于2014-08-12
得票数 0
1
回答
后端数据库在速度上重要吗?
、
、
Spark
有自己的内存处理框架,可以连接到各种数据库,如Cassandra、MongoDB、Redshift。 因此,当通过
Spark
从这些数据库读取时,数据库的
读
性能
(或写
性能
)重要吗?
浏览 4
提问于2015-09-16
得票数 1
1
回答
Spark
SQL
性能
优化
我正在运行一个
Spark
SQL查询,有大量的数据(大约5000万条记录).Due到繁重的记录,查询在集群中变得更慢,所以它需要很长的时间(20分钟)来处理整个数据。我在query.How中使用inner join,left join可以提高
性能
。
浏览 3
提问于2018-04-02
得票数 0
2
回答
如果where子句已经修复,如何加快
spark
筛选器查询?
、
在我的例子中,数据驻留在星火
表
中,这些
表
是通过调用dataframe上的createOrReplaceTempView API创建的。创建
表
后,将在
表
的顶部运行多个查询。我想知道是否可以进行某种类型的
优化
来提高过滤器查询的
性能
。我试着探索索引的方法,但事实证明
spark
不支持索引一个特定的专栏。
浏览 3
提问于2021-12-30
得票数 -3
1
回答
如何统计SparkSQL中`View`的数据?
、
Spark
版本: 3.0.0 以下是一些代码: val df =
spark
.read.schema(schema).format("com.databricks.
spark
.csv")df.createOrReplaceTempView("t1") val res =
spark
.s
浏览 26
提问于2020-07-13
得票数 0
回答已采纳
1
回答
对于没有整数主键列的
表
,使用
spark
并行读取Postgres中的数据
、
、
、
、
我正在从包含特定季度的102,000,000条记录的PostGres
表
中读取数据。该
表
包含多个季度的数据。现在我正在通过
spark
JDBC连接器读取数据,获取数据花费了太多时间。connectionString = jdbcurl;val readPGSqlData =
spark
.read.jdbc
浏览 2
提问于2020-11-25
得票数 0
2
回答
如何
优化
PySpark代码以获得更好的
性能
、
、
、
、
我试图获取
表
(Delta
表
)最后一次
优化
的时间,使用下面的代码和获得预期的输出。此代码将用于数据库中存在的所有
表
。table_name_or_path = "abcd" 是否有任何方法来编写
优化
的代码,这将更有
浏览 20
提问于2022-08-18
得票数 0
回答已采纳
2
回答
什么是Apache
Spark
(SQL)中的Catalyst Optimizer?
、
我想知道更多关于在Apache ( PySpark )中使用Catalyst Optimizer的信息,在pyspark数据帧中使用Catalyst Optimizer是可能的。
浏览 23
提问于2019-05-18
得票数 1
2
回答
什么时候索引不值得更新?
、
、
是否有一个被接受的
读
与写的比率,使一个索引是值得的,还是它更少削减和干燥比这?在结果的两端,我是清楚的-- 1,000,000
读
和0写=好索引以加快数据检索,1,000,000写和0
读
意味着我们正在维护一个索引,用于零引用。
浏览 0
提问于2009-10-14
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark Streaming如何读Kafka数据 Hbase如何设计表
Spark性能优化:开发调优篇
HBase性能优化之表的设计
Spark高性能优化一:让你拥有大牛的开发理念
【功能优化】批量拆分工作表性能提升100倍
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券