腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(2700)
视频
沙龙
1
回答
没有
主键
列
的
Spark
jdbc
读取
性能
调
优
、
、
、
我正在运行
spark
分析应用程序,并使用
spark
jdbc
直接
读取
MSSQL Server表(整个表)。这些表有超过30M条记录,但
没有
任何
主键
列
或整数列。因为表
没有
这样
的
列
,所以我不能使用partitionColumn,因此它在
读取
表时花费了太多时间。val datasource =
spark
.read.format("
jdbc
")
浏览 23
提问于2019-09-26
得票数 1
1
回答
spark
jdbc
读取
优化
没有
主键
的
where表
、
我正在从oracle表中
读取
30M条
没有
主键
列
的
记录。
spark
jdbc
读取
挂起并且不获取任何数据。在那里,我可以在几秒钟内从Oracle SQLDeveloper获得相同查询
的
结果。oracleDf = hiveContext.read().format("
jdbc
").option("url", url) .option(&
浏览 1
提问于2018-09-21
得票数 1
1
回答
火花(火花放电)速度试验
、
、
我通过
jdbc
连接到一个拥有50万行和14
列
的
DB。下面是使用
的
代码: properties= {'jdbcurl': '
jdbc
:db:XXXXXXXXX','user': 'XXXXXXXXX', 'password': &
浏览 1
提问于2018-03-05
得票数 0
回答已采纳
7
回答
Apache SQL与Sqoop基准测试同时将数据从RDBMS传输到hdfs
、
、
、
我们已经使用sqoop对这个案例进行了基准测试,并发现我们能够在6-7分钟内传输大约20 of
的
数据。 当我尝试使用
Spark
时,
性能
非常低(从netezza到hdfs需要4分钟
的
1GB记录)。我正在尝试进行一些
调
优
并提高它
的
性能
,但它不太可能将其调到sqoop级别(1Min中大约有3GB
的
数据)。我同意
spark
主要是一个处理引擎这一事实,但我
的
主要问题是,
spark
和sqoop
浏览 3
提问于2016-05-10
得票数 14
回答已采纳
2
回答
play scala项目中play框架
的
数据库优化
性能
、
、
、
、
讨论了一些额外
的
调
优
性能
参数,但
没有
提到任何关于最佳或中度设置
的
建议/建议。另外,我有以下SQL错误。不知道这是否与
调
优
设置有关,因为我有所有稳定
的
构建,如bonecp0.8.0,0.6.0.1,play 2.2.2,play 0.6.0.1等等。 Caught SQLException!com
浏览 6
提问于2014-11-21
得票数 0
回答已采纳
1
回答
火花
JDBC
并行
、
、
、
我正在处理用例,在这个用例中,我需要一次性卸载
JDBC
Datasource --在我
的
例子中,它是SAP数据库。我想将整个SAP数据库卸载到HDFS/MapR。我们最初尝试了sqoop,但是Sqoop
的
问题取决于
主键
字段,并且它只支持一个
主键
字段--按分拆-按争理。然后,我们考虑利用
Spark
来做数据集
的
Sqoop。通过各种
JDBC
选项可用
的
火花,例如,这个帖子。它还只接受一个
列
,而对于SAP Hana表
浏览 0
提问于2018-09-18
得票数 2
1
回答
使用
JDBC
驱动程序将
Spark
数据集写入Oracle数据库
的
过程非常耗时
、
、
、
、
我正在使用Apache
Spark
加载、处理数据集,并使用
JDBC
驱动程序将数据集输出到Oracle DB中。 我使用
spark
jdbc
write方法将数据集写入数据库。但是,同时将数据集写入数据库,将10行和1000万行写入数据库
的
不同表所需
的
时间相同。我想知道如何使用
spark
调
优
此写入方法
的
性能
,以便我们可以明智地使用apache
spark
计算engine.Otherw
浏览 0
提问于2018-08-21
得票数 0
1
回答
将大型
Spark
数据帧写入Cassandra -
性能
调
优
、
、
我在
Spark
2.1.0 / Cassandra 3.10集群(4台机器* 12个内核* 256个RAM *2个SSD)上工作,并在相当长
的
一段时间内努力提高使用
spark
- Cassandra -connector2.0.1向cassandra写入特定大数据帧
的
性能
。list<FROZEN<some_type>>, PRIMARY KEY
浏览 2
提问于2017-05-12
得票数 1
1
回答
聚集索引与
主键
性能
我试图
调
优
一个存储过程,它有一个用于匹配
的
临时表(只用于检索、
没有
更新或插入)。我们正在考虑将群集密钥应用于临时表。我们还在考虑应用
主键
(集群)。除了
主键
的
唯一/非空约束之外,聚集索引和
主键
在查找临时表中
的
值方面是否存在
性能
上
的
差异? 谢谢。
浏览 0
提问于2012-11-28
得票数 4
回答已采纳
2
回答
JDBC
到
Spark
如何确保均匀分区?
、
、
、
我对
Spark
还不熟悉,我正在使用DataFrame从Postgres数据库表中使用
spark
.read.
jdbc
创建一个
JDBC
。文档似乎表明这些字段是可选
的
。如果我不提供呢? 假设我将有20个执行者,所以我将我
的
numPartitions设置为20。我
的
partiti
浏览 0
提问于2019-06-10
得票数 7
5
回答
用于数据
读取
的
MyISAM
、
、
我有一个大约10亿行
的
表,其98%
的
读取
量很大。然后运行一些测试来查看
性能
。在where子句中,我有一个
主键
ID,而且由于MyISAM键缓存将所有索引存储在其缓冲区中,使用MyISAM似乎非常快,比InnoDB快2倍左右。 但对InnoDB来说,它似乎慢了一些!!是InnoDB
没有
使用任何缓冲区预加载索引吗?
浏览 0
提问于2012-08-13
得票数 10
3
回答
pyspark作业太慢,-tried全部优化
、
、
、
'org.postgresql:postgresql:42.2.10','org.apache.hadoop:hadoop-aws:2.7.0' ,'com.oracle.database.
jdbc
:ojdbc6/fairscheduler.xml")\ .config("
spark
.driver.extraClassPath", "/home/hadoop/cdata.
jdbc
.netsuite.jar
浏览 92
提问于2021-07-30
得票数 0
2
回答
如何使用varchar数据类型
的
partitionColumn
读取
scala上
的
表?
、
、
、
有可能给出varchar数据类型
的
partitionColumn吗?我想要读
的
表
没有
主键
,所有
列
都是varchar数据类型。有任何方法从
jdbc
中
读取
partitionColumn作为varchar类型吗?var finaldataframe =
spark
.read.format("
jdbc
") .option("driver", "com.microsoft.sqlserver.<
浏览 5
提问于2020-01-24
得票数 0
1
回答
Spark
和
JDBC
:遍历大型表并写入hdfs
、
、
、
、
什么是最有效
的
内存方式来复制大型关系表
的
内容,然后用parquet格式写入分区
的
Hive表(
没有
sqoop)。我有一个基本
的
spark
应用程序,我已经用
spark
的
jdbc
做了一些其他
的
调
优
,但是关系表中
的
数据仍然是0.5TB和20亿条记录,所以我虽然可以懒惰地加载完整
的
表,但我正在努力弄清楚如何根据日期有效地分区由于
spark
浏览 5
提问于2017-06-22
得票数 1
2
回答
使用Cassandra
的
Spark
任务
、
、
、
我是
Spark
和Cassandra
的
新手一种观察是,
spark
作业
的
任务数量增加了w.r.t数据增长。正因为如此,我们在获取数据时面临着大量
的
延迟。应该考虑什么来提高Cassandra在
Spark
中
的
性能<
浏览 1
提问于2015-09-08
得票数 2
2
回答
mssql-
jdbc
MS SQL Server
JDBC
驱动程序准备了Hikari CP
的
语句缓存
性能
问题
、
、
、
、
不幸
的
是,由于这次切换,我们看到读查询
性能
平均下降了20-30% --这是不可接受
的
。然而,在使用Hibernate 5.3 + Hikari +它们
的
JDBC
驱动程序
的
Oracle和MySQL
的
相应结果中,我们实际上看到了大约5%-15%
的
性能
改进--因此我们相当肯定这不是Hibernate我们还尝试
调
优
所有明显可用
的
缓存
调
优
参数:statem
浏览 1
提问于2018-06-02
得票数 4
1
回答
如何统计SparkSQL中`View`
的
数据?
、
Spark
版本: 3.0.0 以下是一些代码: val df =
spark
.read.schema(schema).format("com.databricks.
spark
.csv")df.createOrReplaceTempView("t1") val res =
spark
.s
浏览 26
提问于2020-07-13
得票数 0
回答已采纳
2
回答
ApacheSpark2.1-- Row对象
的
Scala长/重属性
、
、
、
我们已经用Scala2.11编写了一个
spark
应用程序,它运行在
Spark
2.1.0独立集群上。根据设计/要求,我们已经构造了具有很多直接
列
(如100 s)
的
row对象,并且很少有嵌套
列
,其中一些嵌套
列
也很重,比如有20k到30k
的
序列。也有匹配
的
案例类来使用星火数据集。.....column_150, column_152 = Seq...column_160 = Se
浏览 0
提问于2017-11-09
得票数 2
1
回答
使用Scala
spark
读写Redshift
的
最佳方式是什么,因为Databricks不公开支持
spark
-redshift lib
、
、
我在Scala中有我
的
Spark
项目,我想使用
spark
-redshift repo作为我
的
DataWarehouse,我发现Redshift是存在
的
,但Databricks从几年前就将其设置为私有的现在处理Amazon Redshift和
Spark
(Scala)
的
最佳选择是什么?
浏览 48
提问于2020-07-17
得票数 0
1
回答
Elasticsearch hadoop配置批量批处理大小
、
、
我通过可能
的
Stackoverflow阅读到es-hadoop / es-
spark
项目使用批量索引。如果是,则默认批处理大小为BulkProcessor(5Mb)。有
没有
什么配置可以改变这一点。我在我
的
代码中使用了JavaEsSparkSQL.saveToEs(dataset,index),我想知道哪些配置可以用来
调
优
性能
。这是否也与数据集分区有关。
浏览 3
提问于2016-11-09
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
高性能Spark作业基础:你必须知道的调优原则及建议
Zzreal的大数据笔记-SparkDay04
如何对分布式 NewSQL 数据库 TiDB 进行性能调优
Java大数据:数据库开发从入门到精通
大数据查询——HBase读写设计与实践
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券