腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6256)
视频
沙龙
1
回答
PySpark和
MySQL
选项
、
、
我想用下面的方式写到DB上 df.write.format("jdbc").option("url", jdbc_url).option("driver", "com.
mysql
.jdbc.Driver
浏览 2
提问于2020-09-16
得票数 1
回答已采纳
1
回答
Apache使SQL查询更快?
、
、
来自 对于长时间运行(即报告或BI)查询,它可以更快一些,因为
Spark
是一个大规模
并行
系统。
MySQL
每个查询只能使用一个CPU核心,而
Spark
可以在所有集群节点上使用所有核心。在下面的示例中,
MySQL
查询在
Spark
中执行,运行速度是
MySQL
数据的5-10倍(在相同的
MySQL
数据之上)。
浏览 5
提问于2017-06-09
得票数 1
回答已采纳
1
回答
合并减少JDBC读取
并行
性
我利用
Spark
的JDBC功能如下: 在DataFrame的整个生命周期中,不对其执行**。由于
Spark
的懒惰评估,coalesce减少了读取操作的
并行
性。DataFrameReader.jdbc(..numPartitions..)读取numPartitions=42,然后在编写之前将其读到6partition,那么它读取DataFrame时的并发性仅为6(只向
MySQL
我想重复一遍,之前它使用了<e
浏览 2
提问于2018-04-18
得票数 2
回答已采纳
2
回答
在PySpark SQL中
并行
执行读写API调用
、
、
、
、
我需要以Parquet格式将增量记录从
MySQL
中的一组表加载到Amazon格式。这些表在AWS
MySQL
托管实例中的几个数据库/模式中很常见。代码应该
并行
地从每个模式(其中有一组公共表)复制数据。def load_data_to_s3(databases_df): db_query_properties = config[
浏览 4
提问于2020-08-15
得票数 0
回答已采纳
1
回答
使用
Spark
写入memsql的最佳实践
、
、
我的用例如下:我们正在使用
Spark
从HDFS读取和转换数据。转换后的数据应保存在memsql中。长话短说:
Spark
scale如何写入memsql?
浏览 4
提问于2016-01-15
得票数 1
2
回答
使用
Spark
SQL从SQL Server读取数据
、
、
是否可以从Microsoft Sql Server (以及oracle、
mysql
等)读取数据
Spark
应用程序中的rdd?或者我们需要在内存中创建一个集合并将其
并行
化到RDD中?
浏览 1
提问于2014-10-07
得票数 10
回答已采纳
2
回答
与sqoop相比,在jdbc方面,为什么slower比sqoop慢?
、
、
、
可以理解的是,当从oracle db迁移/加载到hdfs/parquet时,它更倾向于使用SQOOP,而不是使用JDBC驱动程序。请建议我应该做什么,以使火花更快的时候,从甲骨文加载数据。
浏览 4
提问于2019-05-24
得票数 4
回答已采纳
1
回答
错误:使用
Spark
写入TiDB时,GC生存期短于事务持续时间
我正在使用Apache
Spark
批量写入数据。批次为1天。在运行
spark
作业时,我得到了这个错误。我正在使用
MySQL
java连接器连接到TiDB集群。
Spark
为写入创建了144个
并行
任务。(SQLError.java:1055) at com.
mysql
.jdbc.MysqlIO.checkErrorPacket(M
浏览 7
提问于2018-11-13
得票数 0
2
回答
对dataframe的200万次查询
、
你认为
Spark
能更快地处理查询吗?最好的策略是什么?以下是我的想法: 谢谢,
浏览 4
提问于2020-07-13
得票数 1
2
回答
spark
并行
读取
mysql
数据
、
、
、
我正在尝试从
mysql
中读取数据,并将其写回s3中具有特定分区的parquet文件,如下所示: .options(driver='com.
mysql
.jdbc.Driver',url="""jdbc:
mysql
://<host>:3306/<>db?write.parquet(path='s3n://parquet
浏览 3
提问于2016-01-28
得票数 10
1
回答
PySpark & JDBC:我什么时候应该在JDBC中使用should?
、
、
、
我有一个HDFS数据湖,可以通过Hive和Presto、Impala和
Spark
(集群中的)查询数据。谢谢!
浏览 3
提问于2019-10-21
得票数 1
回答已采纳
1
回答
在
spark
中使用下推查询,如何在
spark
-HBASE (BIGSQL作为SQL引擎)中获得
并行
性?
、
、
、
、
在
Spark
中,PushdownQuery由数据库的SQL引擎进行处理,并根据处理结果构造数据框架。因此,
spark
查询该查询的结果。-
mysql
中的另一个引用()中看到,下推查询中的
并行
性是通过基于参数numPartitions和partitionColumn触发多个查询来实现的。构建了4个查询;触发到DB,并根据这些查询的结果构造dataframe (在本例中,
并行
度为4)。(2.1版)+ hbase ( Query engine - BIGSQL)中使用这种方法实现
并行
性?它现在
浏览 6
提问于2018-08-23
得票数 0
回答已采纳
1
回答
java.sql.SQLException:其他错误:在使用
mysql
-连接器-java5.1.6连接器连接到数据库时,请求过时
、
、
、
、
在使用TIDB通过
Spark
连接到
mysql
-connector-java 5.1.6 connector时获取以下错误。请注意,我使用
并行
连接选项创建了jdbc连接,其中我们指定了列名、下限、上限和分区数。at com.
mysql
.jdbc.SQLError.createSQLException(SQLError.java:956) at com.
mysql
.jdbc.MysqlIO.chec
浏览 2
提问于2018-10-05
得票数 0
回答已采纳
1
回答
从单个数据源
并行
运行代码
、
、
查看日志时,代码是按顺序执行的,而不是
并行
执行的。我在没有改变执行时间的情况下尝试了不同的#worker#core内存组合数量。在我看来,应该可以有n*m个
并行
执行,其中n是设备的数量,m是所有者的数量,因为数据在它们之间没有以任何方式连接。per device df_owner = df_analysis.where($"owner" === owner)
spark
.writeToMysql(df_owner) /&
浏览 18
提问于2019-06-12
得票数 0
2
回答
Spark
scheduler vs
Spark
Core?
、
、
、
我发现Apache
Spark
是为了教学目的,我对如何管理任务调度有点困惑。我发现
Spark
有3个调度选项:
Spark
Scheduler,YARN Scheduler和MESOS。但是我也读到
Spark
Core管理任务的调度。所以我想我没有明白这一点: 如果
Spark
Core管理任务的调度,为什么我们还需要
Spark
Core下面的调度器?那么,这些任务
并行
执行意味着什么呢?这是指在多个工作者上
并行
,还是在同一个工作者上
并行
?
浏览 18
提问于2020-12-19
得票数 0
1
回答
在Python中挖掘大型文件(1 GB+)文本的最佳方法是什么?
、
我想: 分批?地图/缩减?哈杜奥普?使用数据库而不是Python?我不想要的是编写一个函数来找到一个模式,然后等待一个小时的处理(还有很多东西要写,更不用说等待响应了)。显然,常规的处理正常大小文件的方法在这里并不适用)。
浏览 1
提问于2015-01-21
得票数 0
1
回答
如何使用PySpark向
MySQL
数据库流式传输数据?
、
、
、
、
我做了一些研究,发现PySpark非常适合流式传输数据,我选择
MySQL
作为流式传输数据的数据库(但我对其他dbs和流式传输方法持开放态度)。
Spark
说数据必须通过Kafka、Flume、TCP socets等源获取,所以我想知道是否必须使用这些方法中的任何一种来将我的CSV文件导入到
Spark
中。唯一让我对这个例子感到困惑的是,他们正在使用
Spark
Spark
集群将数据流式传输到数据库中,而我不确定如何将所有这些都整合到flask服务器中。
浏览 1
提问于2018-11-13
得票数 1
3
回答
独立模式下的火花
并行
、
、
基于,我计算火花配置如下:
spark
.executor.cores 3
spark
.executor.memory20g我在我的jupyter笔记本中创建了这样的
spark
上下文,并通过以下方法检查
并行
性级别默认的
并行
性是
浏览 8
提问于2017-07-22
得票数 7
回答已采纳
1
回答
在
spark
-submit命令中设置default.parallelism
、
、
在执行
spark
-submit作业时,更改默认
并行
度的语法是什么?在提交
spark
作业时,我可以通过以下命令指定executor、executor内核和executor内存的数量:
spark
-submit --num-executors 9 --executor-cores5 --executor-memory 48g 在conf文件中指定
并行
度为:
spark
.conf.set("
spark
.default.parallelism",90) 如果
浏览 41
提问于2020-09-27
得票数 0
回答已采纳
1
回答
星火中的准等位基因收藏
、
、
星火中的“平行集合”的概念是什么,以及这个概念如何能够提高工作的整体性能?此外,应该如何配置分区呢?
浏览 3
提问于2018-05-05
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
MySQL8.0的新功能-并行复制增强及疑问
大数据集群服务安装-mysql,hive,azkaban,sqoop,spark,python
Mysql的5个使用技巧:正则、随机抽取、分组、大小写,引擎
第八篇|Spark SQL百万级数据批量读写入MySQL
如何在万亿级别规模的数据量上使用Spark
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券