腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
spark
jdbc
-
到
源
的
多个
连接
?
dataframe
、
apache-spark
、
hadoop
、
spark-jdbc
有人提到,当我们使用
spark
.read
JDBC
时,它会生成一个数据帧,然后如果我们在该数据帧上执行两次df.write。**它是否创建了两个
到
源
的
连接
?**我需要一些帮助来了解
spark
的
内部工作原理。假设我创建了一个函数来返回一个df read_df(): df =
spark
.read.format("
jdbc
").option("header", "true
浏览 13
提问于2020-10-01
得票数 0
1
回答
JDBC
接收器
连接
器抛出java.sql.BatchUpdateException
apache-kafka
、
teradata
、
apache-kafka-connect
几周前,我创建了一个Sink
JDBC
。at com.teradata.
jdbc
.
jdbc
_4.util.ErrorFactory.makeBatchUpdateException(ErrorFactory.java:149)at com.teradata.
jdbc
.
jdbc
_4.util.ErrorFactory.makeBatchUpdateException(ErrorFactory.java:138)at com.teradata.
jdbc
.
jdbc
_4.TDP
浏览 2
提问于2019-06-27
得票数 0
2
回答
在写入数据帧时,从
Spark
到
数据库
的
连接
数是多少?
apache-spark
、
apache-spark-sql
、
spark-jdbc
在下面的场景中,我搞不懂
Spark
会建立多少
到
数据库
的
连接
: 假设我有一个
Spark
程序,它只在一个具有一个执行器
的
工作节点上运行,一个数据帧中
的
分区数是10,我想将这个数据帧写入Teradata。由于并行度是10,但是executor只有1,那么在保存数据时会建立10个
连接
,还是只有1个
连接
?
浏览 3
提问于2020-11-05
得票数 1
1
回答
Apache
Spark
:如何从数据库中仅提取公共记录到集群
mysql
、
apache-spark
、
apache-spark-sql
假设我
的
集群上有"100k条记录“,数据库中有”1亿条记录“(例如:MySql)。如何才能仅将这两个数据集之间
的
公共记录放入"dataFrame“或"RDD”中,而不将全部1亿条记录物理地移动到集群中?"mapPartitions“在这里有什么作用吗?
浏览 1
提问于2019-12-25
得票数 0
1
回答
星星之火sql -将mssql dataframe与来自不同来源
的
dataframe
连接
起来。
sql-server
、
scala
、
apache-spark
、
apache-spark-sql
所以我从两个不同
的
来源创建了两个数据格式。一个
源
是mssql,另一个可以是任何类似纯文本
的
源
。然后,我想要做
的
是加入一个varchar列上
的
2个dataframes,如果我要在SQL server中这样做,将会非常昂贵。我
的
问题是,这个操作是在
spark
中更有表现力,还是仍然需要在varchar列上执行SQL中
的
联接/查询?sqlContext.read.format("
jdbc
浏览 0
提问于2018-02-27
得票数 0
回答已采纳
2
回答
如何读取数据库格式文件?
python
、
apache-spark
、
pyspark
df_chinook =
spark
.read.format('
jdbc
').load("/content/datasets/chinook.db") 下面是我
的
代码,我试图将db基加载到pyspark中,但是有(类似于这个IllegalArgumentException: requirement :选项'url‘是必需
的
错误)。
浏览 1
提问于2022-01-16
得票数 0
2
回答
数据
源
io.pivotal.greenplum.
spark
.GreenplumRelationProvider不支持流写入。
scala
、
apache-kafka
、
spark-streaming
、
greenplum
我试图读取卡夫卡
的
数据,并将其上传到格林梅利
的
数据库使用火花。我使用
的
是格林梅-火花
连接
器,但我正在获取数据
源
,io.pivotal.greenplum.
spark
.GreenplumRelationProvider不支持流写入。是否格林梅
源
不支持流媒体数据?我曾尝试将数据
源
命名为“绿梅”,并将"io.pivotal.greenplum.
spark
.GreenplumRelationProvider“转换为.format(”
浏览 0
提问于2019-04-04
得票数 0
回答已采纳
1
回答
如何使用
jdbc
数据
源
控制员工事务?
apache-spark
、
jdbc
、
apache-spark-sql
我认为
spark
应用程序分布在许多JVM上,如何控制每个工作事务
的
同步?// DELETE: BEGINconn = DriverManager.getConnection(DB_URL,conn.prepareStatement(query);preparedStmt.execute(); val jdbcDF
浏览 3
提问于2017-04-18
得票数 0
回答已采纳
2
回答
为什么在
spark
.
jdbc
中需要dbtable / query
apache-spark
、
jdbc
、
pyspark
我是一个
SPARK
新手,我不清楚为什么dbtable或query需要作为
JDBC
选项
的
一部分。其他驱动程序执行类似的验证(例如,用于Presto
的
CData驱动程序)jdbcOptions.option("url"
浏览 4
提问于2021-05-15
得票数 0
2
回答
在
jdbc
数据
源
上激发SQL持久视图
apache-spark
、
pyspark
、
jdbc
、
apache-spark-sql
、
view
我想在
spark
中创建一个持久化(全局)视图,从底层
jdbc
数据库
连接
中获取数据。当我使用临时(会话范围)视图时,它工作得很好,如下所示,但是当我试图创建一个常规(持久和全局)视图时,它会失败。我不明白为什么后者不能工作,但是找不到任何文档/提示,因为所有的示例都是用临时视图完成
的
。从技术上讲,我不明白为什么它不应该工作,因为数据是在临时视图中正确地从
jdbc
源
检索
的
,因此,如果我想将查询“存储”在一个持久视图中,那么无论何时调用视图,它都可以直接从
j
浏览 14
提问于2022-10-27
得票数 0
回答已采纳
1
回答
Spark
中
的
惰性评估。
Spark
如何从DB加载数据
apache-spark-sql
假设我们设置了100
的
限制,并且
Spark
应用程序
连接
到数据库与百万records.Does
Spark
加载所有百万记录或加载100 x 100?
浏览 0
提问于2017-07-05
得票数 2
1
回答
Spark
作业可在两个不同
的
HDFS环境中工作
apache-spark
、
hadoop
、
hive
、
apache-spark-sql
我有一个要求,我需要编写一个
spark
作业来
连接
Prod(
源
-配置单元)服务器A,并将数据放入本地(临时配置单元服务器),执行转换并将其加载回TargetProd(服务器B)AAA.write.format("
jdbc
").option("url","
jdbc
:oracle:thin:@//uuuuuuu:0000/关
浏览 1
提问于2018-06-13
得票数 0
1
回答
如何激发SQL access数据库?
sql
、
apache-spark
假设您使用
spark
访问一个SQL数据库。使用RDD火花将数据划分为
多个
不同
的
部分,这些部分共同构成数据集。 RDD
的
每个节点访问数据库并构建它们
的
部分。它
的
优点是节点不会被迫分配大量内存,但是数据库将不得不承受N个可能很大
的
连接
。问题是,这个单一节点需要拥有所有的数据,这在许多情况下是行不通
的
。
浏览 2
提问于2020-03-06
得票数 1
回答已采纳
2
回答
为什么PostgreSQL说“致命”:对不起,当我无法达到最大
连接
时,已经有太多
的
客户端了?
python
、
postgresql
、
apache-spark
、
pyspark
、
spark-jdbc
我正在处理PostgreSQL 11.2
的
安装,它会定期在系统日志中进行抱怨。尽管是无-哪里接近其配置
的
连接
限制。current_setting('max_connections') AS max,FROM pg_stat_activity 告诉我,数据库配置为最多100个
连接
我从未见过使用此查询
连接
到数据库
的
大约45个
连接</
浏览 6
提问于2021-02-13
得票数 1
回答已采纳
1
回答
如何使用
JDBC
从Oracle读取数据集?
windows
、
scala
、
apache-spark
、
jdbc
、
apache-spark-sql
当使用
jdbc
驱动程序
连接
到例如甲骨文时,什么是真正执行
的
?=C:/jdbcDrivers/ojdbc8.jarval jdbcDF =
spark
.read.format("
jdbc
").option("不需要在shell中单独添加
jdbc
驱动程序jar,这是很好
的
。当我以相同
的
方式启动主程序和辅助程序时,但是在eclipse中
浏览 1
提问于2017-07-14
得票数 1
回答已采纳
1
回答
关于
JDBC
资源和
JDBC
连接
池
的
一些混淆
java
、
jakarta-ee
、
jpa
、
glassfish
我即将
连接
到我
的
数据库,我使用EJB和JPA。我最近已经开始做这些技术了,所以在这一点上我有一些问题:)我知道persistence.xml是使用JPA所必需
的
。这是我所知道
的
配置如何
连接
数据库
的
文件。然而,似乎有多种方法可以做到这一点。 会有什么不同(或者什么时候我应该使用一种选择而另一种呢?)在我发布
的
图片下面,我有
JDBC
和
JDBC
连接
池。我对这两者
的
术语有点搞不懂。为什么我们不在
JD
浏览 1
提问于2011-10-14
得票数 6
回答已采纳
1
回答
使用Apache读写SQL数据库
sql
、
apache-spark
、
jdbc
我想了解为什么在使用Apache时,我们没有显式地关闭
JDBC
连接
。见:或val collection = sqlContext.read.sqlDB(config)jdbcDF.write .save() 我们并没有真正打开
连接
,只是指定了DAG阶段?然后在引擎盖下火花建立
连接
并关闭它?
浏览 2
提问于2020-03-02
得票数 1
回答已采纳
1
回答
我们可以在除Hive表之外
的
任何其他数据库表上使用
spark
.sql吗?
dataframe
、
hive
、
apache-spark-sql
、
cloud
、
sql-data-warehouse
目前,我们
的
数据库托管在其他数据库中。我们正在考虑使用
JDBC
连接
器在
SPARK
中执行流程。是否可以在
连接
数据
源
之后使用
SPARK
.SQL语句,还是必须加载数据才能使用
spark
.sql查询?
浏览 3
提问于2022-08-11
得票数 -1
1
回答
如何用Pyspark从VerticaDB获取数据
database
、
apache-spark
、
pyspark
、
etl
、
vertica
:com.vertica.
spark
.datasource.VerticaSource.:java.lang.ClassNotFoundException:未能找到数据
源
:from pyspark import SparkContext, SparkConffrom pyspark import sql
spark
=
spar
浏览 7
提问于2022-10-13
得票数 0
1
回答
如何使用
Spark
与teradata进行并行
连接
pyspark
、
apache-spark-sql
、
teradata
、
pyspark-sql
我正在尝试使用
Spark
连接
将火花DataFrame插入
到
Teradata。代码: "TMODE","TERA",}但是,当我执行作业时,它只运行一个执行器和一个
到
ter
浏览 1
提问于2018-09-16
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
第八篇|Spark SQL百万级数据批量读写入MySQL
计算中间件 Apache Linkis 正式毕业成为 Apache 顶级项目
如何将外部数据源与Spark集成?
半小时搭建 spark 应用
Spark SQL,DataFrames 以及 Datasets 编程指南
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券