腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3906)
视频
沙龙
1
回答
如
何在
不知道
数据库
表
模式
的
情况下
按
分区
加
载到
spark
中
mysql
、
apache-spark
我正在尝试使用JDBC连接将一个4000万大
表
加
载到
spark
中
。显然,
分区
加载就是这个问题
的
答案。 问题是我
不知道
需要装载
的
表
的
模式
,也
不知道
按
哪个列进行
分区
。那么我如何从
spark
内部确定这一点呢?val s_log =
spark
.read.format("jdbc").option(
浏览 11
提问于2019-06-26
得票数 1
1
回答
将配置单元
分区
表
加
载到
Spark
Dataframe
hadoop
、
apache-spark
、
hive
、
apache-spark-sql
、
spark-dataframe
我使用
的
是
Spark
1.4.1版本。我正在尝试将一个已
分区
的
配置单元
表
加
载到
一个DataFrame
中
,其中在配置单元
表
中
按
year_week编号进行
分区
,在这种
情况下
,我可能有104个
分区
。但是我可以看到DataFrame正在将数据加
载到
200个
分区
中
,我知道这是因为
spark
.sql.sh
浏览 1
提问于2016-03-28
得票数 1
1
回答
Spark
和JDBC:遍历大型
表
并写入hdfs
apache-spark
、
hive
、
hdfs
、
apache-spark-sql
、
spark-dataframe
什么是最有效
的
内存方式来复制大型关系
表
的
内容,然后用parquet格式写入
分区
的
Hive
表
(没有sqoop)。我有一个基本
的
spark
应用程序,我已经用
spark
的
jdbc做了一些其他
的
调优,但是关系
表
中
的
数据仍然是0.5TB和20亿条记录,所以我虽然可以懒惰地加载完整
的
表
,但我正在努力弄清楚如何根据日期有效地
浏览 5
提问于2017-06-22
得票数 1
2
回答
当指定
分区
时,
Spark
与Hive不兼容。
hive
、
apache-spark-sql
、
partitioning
、
parquet
一种边缘情况,当在带
分区
的
Spark
中保存拼花
表
时,final StructType schema = DataTypes.createStructType(Arrays.asList
Spark
特定格式
的
Hive转移,这与Hive不兼容 hive> describe tblclick8partitioned;col array<string> f
浏览 2
提问于2016-08-31
得票数 14
2
回答
Spark
流到配置单元,每个
分区
有太多小文件
apache-spark
、
hadoop
、
hive
、
apache-kafka
、
spark-streaming
我有一个
spark
流作业,批处理间隔为2分钟(可配置)。dataset.coalesce(1).write().mode(SaveMode.Append).insertInto(targetEntityName); 现在传入
的
数据并不是那么大,如果我将批处理持续时间增加到10分钟左右,那
浏览 0
提问于2018-03-20
得票数 2
2
回答
Apache
Spark
是否从目标
数据库
加载整个数据?
apache-spark
、
jdbc
、
vertica
、
pyspark-sql
我想使用Apache
Spark
并通过JDBC连接到Vertica。似乎
Spark
从目标服务器加载了所有数据。这是我
的
代码: .option("url&
浏览 5
提问于2017-02-16
得票数 1
2
回答
Spark
注册
的
临时
表
不能在sqlContext.read()中使用?
java
、
apache-spark-sql
java.sql.SQLSyntaxErrorException: Table 'myDbSchema.myTable' doesn't exist谢谢。
浏览 2
提问于2020-08-09
得票数 0
回答已采纳
3
回答
将文件保存到Parquet时,
分区
列被移动到行尾
apache-spark
、
parquet
对于给定
的
DataFrame,在成为saved到parquet之前,这里是一个
模式
:注意,centroid0是第一个列,是StringType。 path=/git/block/target/scala-2.11/test-classes/data/output/blocking/out
浏览 4
提问于2018-06-21
得票数 5
回答已采纳
2
回答
星火知道DataFrame
的
分区
键吗?
apache-spark
、
partitioning
、
window-functions
我想知道星火是否知道分割键
的
地板文件,并使用这些信息,以避免洗牌。运行
Spark
2.0.1运行本地SparkSession。问题: 如何检查DataFrame
的
分区
键?这有命令吗?我知道如何检查<
浏览 0
提问于2018-01-26
得票数 21
回答已采纳
2
回答
spark
HWC无法写入现有
表
scala
、
apache-spark
、
hive
、
save
、
hdp
在HDP 3.1.0
中
,HWC hive-warehouse-connector-assembly-1.0.0.3.1.0.0-78.jar,i不能根据
数据库
追加(或覆盖)到现有的
表
。我在一个名为DSN
的
数据库
上测试,它工作,但在另一个名为CLEAN_CRYPT
的
数据库
上它失败了。两个
数据库
都是加密
的
+ kerberos import com.hortonworks.
spark
.sql.hive.llap.HiveW
浏览 2
提问于2020-01-28
得票数 2
2
回答
如何有效地连接一个非常大
的
表
和一个大
表
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-dataframes
这两个
表
都是以拼花数据格式存储
的
单元格
中
的
外部
表
。两个
表
中都有一个公共列"lookup_id"。现在,我需要使用数据帧从table_1
中
获取table_2
中</em
浏览 0
提问于2020-07-04
得票数 1
回答已采纳
2
回答
蜂巢MetaStore
的
主要用途?
hadoop
、
hive
、
hive-metastore
我对MetaStore
的
目的有点困惑。当您在蜂巢
中
创建一个
表
时:LOAD DATA INPATH <HDFS_file_location> INTO table managed_table; 因此,我知道这个命令接受HDFS中文件
的
内容,并创建它
的
MetaData表单并将其存储在MetaStore
中
(包括列类型、列名、它在HDFS<
浏览 0
提问于2018-01-31
得票数 2
回答已采纳
1
回答
将范围间隔
分区
数据从一个
表
移动到另一个
数据库
中
的
历史
表
。
oracle
、
partitioning
、
oracle19c
、
data-partitioning
我们有一个主表,它是
按
日期划分
的
范围,间隔一个月.它也是一个包含4个不同值
的
子
分区
列表。所以从本质上说,它是一个月
的
分区
,有4个子
分区
。
数据库
: Oracle 19c另外,在主表上引用
的
浏览 5
提问于2022-05-11
得票数 0
回答已采纳
1
回答
火花查询性能差:如何提高星火查询性能?
apache-spark
、
apache-spark-sql
、
query-performance
、
spark-dataframe
因此,我们想研究
spark
的
查询性能。 然后我们把桌子缓存起来。我们从
Spark
中发现,
Spark
并没有将所有数据加
载到
内存
中
,而是将一些数据加
载到
浏览 1
提问于2016-03-08
得票数 2
2
回答
S3
中
的
表
到外部
表
每小时一次
amazon-web-services
、
amazon-s3
、
amazon-redshift
、
amazon-emr
我希望将数据从
表
导出到存储在
中
的
外部
表
中
。每小时,我都希望将Redshift源
中
的
行导出到外部
表
目标
中
。 在AWS中有什么样
的
选择来实现这一点?我知道有UNLOAD命令允许我将数据导出到S3,但我认为它不能将数据存储到外部
表
(也是
分区
的
)。或者亚马逊EMR可能是唯一有效
的
方法?
浏览 0
提问于2018-05-10
得票数 0
回答已采纳
2
回答
linq2sql C#:如何从更改架构名称
的
表
中
查询
c#
、
entity-framework
、
linq-to-sql
、
ado.net
、
dbml
我有一个webservice,它试图连接到桌面会计应用程序
的
数据库
。[DatabaseName].[202001].每当我想查询
数据库
中
的
客户信用信息时,我都应该从
数据库
中
数量最多
的
模式
(
如
[DatabaseName].[202016].[CustomerCredit] 202016是最新
的</e
浏览 16
提问于2020-02-19
得票数 0
2
回答
无法编写由两个压缩数据文件创建
的
PySpark数据
python
、
dataframe
、
apache-spark
、
pyspark
我试图遵循
的
方法,在没有共享连接键
的
情况下
组合两个dataframes (通过
数据库
表
中
的
“索引”或熊猫数据框架进行组合,但PySpark没有这个概念):left_df = left_df.repartition但我
不知道
怎么做。我只知道如何指定
分区
的
#,而
不知道
分区
的
方式。 或者,更具体地说,如果没有可以使用
的
列,
浏览 1
提问于2020-09-03
得票数 1
2
回答
使用java
Spark
DataFrame通过jdbc访问Oracle
java
、
jdbc
、
apache-spark
、
apache-spark-sql
我发现现有的用于访问传统
数据库
的
Spark
实现非常有限和有限。特别是: 将
分区
参数传递给生成
的
SQL非常有限。最麻烦
的
是,我无法自定义如何进行
分区
的
查询,它所允许
的
只是标识
分区
列和上下边界,但只允许一个数字列和值。我知道我可以像您做子查询一样向我
的
数据库
提供查询,并将我
的
分区
列映射到一个数值,但这将导致我
的<
浏览 2
提问于2015-03-27
得票数 2
回答已采纳
1
回答
在ETL中进行分期:最佳实践?
pentaho
、
etl
、
data-warehouse
目前,我所使用
的
体系结构提取了一些数据源,其中一个是本地
的
,因为它是托管在云中
的
。其他
的
无论如何都是本地托管
的
,所以我执行
的
ETL直接从源获取它。我不认为为其他来源创造一个舞台有什么意义。1)将本地托管
的
源复制到本地阶段是否有明显
的
好处?3)如果我试图减少我
的
ETL时间,有什么好
的
方法来做到这一点呢?我正在考虑对数
浏览 2
提问于2014-06-02
得票数 0
回答已采纳
1
回答
如
何在
使用JDBC数据源时将用户名和密码传递给
Spark
?
jdbc
、
apache-spark
、
h2
、
apache-spark-sql
我刚刚开始使用
Spark
从H2
数据库
加载数据,下面是我在
Spark
文档之后所做
的
工作:>>> df = sqlContext.load(这是
Spark
-SQL1.3.1文档
中
的
参数: 要连接到
的
JDBC。 dbtable应该读取
的
JDBC
表
。注意,任
何在
SQL查询
的
浏览 3
提问于2015-05-30
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark SQL,DataFrames 以及 Datasets 编程指南
Spark SQL join的三种实现方式
深度对比Apache CarbonData、Hudi和Open Delta三大开源数据湖方案
每天读一本:Spark快速大数据分析
基于 Hudi 和 Kylin 构建准实时高性能数据仓库
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券