腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
4
回答
用星星之火
覆盖
蜂窝
分区
scala
、
amazon-web-services
、
apache-spark
、
hadoop
、
hive
我正在使用AWS,我有使用
Spark
和
Hive
的
工作流。我
的
数据
是按日期划分
的
,所以每天我
在
S3存储中都有一个新
的
分区
。我
的
问题是,当有一天加载
数据
失败时,我必须重新执行该
分区
。如果我使用SaveMode.Overwrite,完整
的
表
将被删除,并且只保存
分区
。如果我使用SaveMode.Append,我可能有重复
的</e
浏览 2
提问于2018-04-23
得票数 11
回答已采纳
1
回答
Pyspark:使用
dataframe
在
hive
分区
表
上用新
数据
替换旧
数据
apache-spark
、
hive
、
pyspark
您能指导我使用pyspark(
dataframe
)
在
特定
的
hive
分区
上用新
数据
替换旧
数据
吗?每个月我都会收到一些县
的
记录。我想用该
分区
上
的
新
数据
替换旧
数据
。我已经使用pyspark开发了脚本,并在
数据
帧中加载了特定
分区
浏览 8
提问于2016-08-16
得票数 2
1
回答
在
分区
的
hive
表
中
插入
spark
Dataframe
而
不
覆盖
数据
apache-spark
、
hive
、
pyspark
我有一个从
分区
表
创建
的
数据
帧。 我需要在
不
覆盖
先前
数据
的
情况下,将此
数据
框
插入
到已创建
的
分区
配置单元
表
中
。我使用partitionBy("columnname"),insertInto("hivetable"),但是它给了我partitionBy和intsertInto不能同时使用
的
问题。
浏览 62
提问于2019-09-25
得票数 0
3
回答
无法从配置单元查询`saveAsTable`之后
的
Spark
DF -
Spark
SQL特定格式,与配置单元
不
兼容
scala
、
apache-spark
、
hadoop
、
hive
、
apache-spark-sql
我正在尝试将
数据
帧保存为外部
表
,该
表
将同时使用
spark
和可能
的
hive
进行查询,但不知何故,我无法使用
hive
查询或查看任何
数据
。它在
spark
中
工作。以下是如何重现该问题
的
方法:
hive</em
浏览 3
提问于2019-08-02
得票数 0
1
回答
spark
数据
集
覆盖
在
spark
2.4
中
无法工作
的
特定
分区
scala
、
apache-spark
、
hive
、
apache-spark-sql
在
我
的
工作
中
,最后一步是将执行
的
数据
存储
在
Hive
表
中
,并在"date“列上进行
分区
。有时,由于作业失败,我需要单独为特定
分区
重新运行作业。正如所观察到
的
,当我使用下面的代码时,
spark
在
使用
覆盖
模式时
覆盖
了所有
分区
。,我按照以下步骤仅
覆盖
了特定
的</em
浏览 1
提问于2020-03-18
得票数 1
4
回答
将火花
数据
存储到蜂巢
中
:表格不可读,因为“SequenceFile不是块”
apache-spark
、
hive
、
apache-spark-sql
、
pyspark
我希望使用PySpark将
数据
保存到一个
Hive
表
中
。指出: from pyspark.sql import HiveContext sqlContext = HiveContext(sc)
浏览 2
提问于2015-07-17
得票数 9
回答已采纳
2
回答
如何使用HANA SDA虚拟
表
访问蜂窝酸
表
?
apache-spark
、
hive
、
hana
、
apache-drill
、
virtual-table
我们目前正在使用HANA 1、sps 12、和火花控制器来创建虚拟
表
并访问HANA
中
的
单元
数据
。问题是,我们有一些SC2
表
,我们想要存档
在
HANA,我们需要完整
的
CRUD操作。我们已经将一些
Hive
表
转换为ACID (事务性=真)。现在我们无法获取记录,它返回0条记录。我们尝试使用DSN,它具有对
Hive
acid
表
的
本机支持,但是当我们使用钻孔ODBC驱动程序和DSN查询
浏览 5
提问于2020-05-16
得票数 0
回答已采纳
2
回答
获取所有由火花写入
Hive
亚稳态
的
新
分区
apache-spark
、
hive
、
apache-spark-sql
我有一个
dataframe
,用于使用
spark
(使用动态
分区
)将其
插入
到现有的
分区
单元
表
中
。一旦写入了
dataframe
,我想知道我
的
dataframe
刚刚在
hive
中
创建了哪些
分区
。我可以查询
dataframe
是否有不同
的
分区
,但这需要很长时间,因为它必须启动
dataframe
的<
浏览 1
提问于2019-07-25
得票数 0
回答已采纳
8
回答
从单元
表
中
读取
数据
,然后使用
spark
将其写回。
scala
、
apache-spark
、
hadoop
、
apache-spark-sql
我正在使用
Spark
读取一个
Hive
表
,并将它分配给scala然后,我对
dataframe
进行了一些处理,最后得到了一个
dataframe
,它的确切模式是
表
some_table。最后,我正在尝试将y
数据
重写到同一个单元
表
some_table
中
。:无法将
覆盖
插入
到也正在读取<em
浏览 31
提问于2016-08-03
得票数 17
1
回答
火花-蜂巢
分区
apache-spark
、
hive
Hive
表
是使用4个
分区
创建
的
。cells int, sms_in int) partitioned by (traffic_date_hour string) stored as ORC into 4 buckets 问题是,当
插入
发生在
hive
表
浏览 2
提问于2016-03-21
得票数 1
2
回答
当指定
分区
时,
Spark
与
Hive
不
兼容。
hive
、
apache-spark-sql
、
partitioning
、
parquet
一种边缘情况,当在带
分区
的
Spark
中保存拼花
表
时,final StructType schema = DataTypes.createStructType(Arrays.asList
Spark
特定格式
的
Hive
转移,这与
Hive
不
兼容
hive
> describe tblclick8partitioned;col
浏览 2
提问于2016-08-31
得票数 14
1
回答
从
Hive
表
中
读取
数据
创建
的
spark
数据
帧
的
分区
数
hive
、
apache-spark-sql
我对
spark
dataframe
的
分区
数量有疑问。如果employee
表
有10个不同
的
位置。因此,
在
HDFS
中
,
数据
将被划分为
浏览 0
提问于2017-05-10
得票数 4
3
回答
如何在不删除没有新
数据
的
分区
的
情况下在
Spark
中
分区
和写入
DataFrame
?
apache-spark
、
spark-dataframe
、
partitioning
、
parquet
).partitionBy("eventdate", "hour", "processtime").parquet(path)但是,我在理解如何将
数据
组织到单
浏览 2
提问于2017-02-19
得票数 37
1
回答
具有区分大小写且未
插入
配置单元
表
中
的
DataFrame
apache-spark
、
hadoop
、
hive
、
pyspark
、
bigdata
面对这样一种场景,其中
dataframe
区分大小写,并且
在
将该
dataframe
插入
到
hive
表
中
时,它会抛出错误,因为列不明确我们可以在运行时动态处理来自列
的
两个值
而
不
抛出错误吗通过设置
spark
.set.conf("
spark
.sql.caseSensitive", "true
浏览 4
提问于2019-08-02
得票数 0
6
回答
将火花
数据
作为动态
分区
表
保存在蜂巢
中
apache-spark
、
hadoop
、
hive
、
apache-spark-sql
我有一个示例应用程序可以从csv文件
中
读取
数据
。可以使用df.saveAsTable(tablename,mode)方法以拼花格式将
数据
存储到
Hive
表
中
。上面的代码工作正常,但是我每天都有这么多
的
数据
,所以我想根据creationdate(
表
中
的
列)动态地划分
hive
表
。 是否有任何方法来动态划分
数据
并将其存储到蜂窝仓库。问题可以看作是对:<e
浏览 7
提问于2015-07-10
得票数 41
回答已采纳
2
回答
在
星火库上列出特定单元
表
的
所有
分区
,并添加一个
分区
apache-spark
、
hive
如何向
hive
表
中
添加新
的
分区
?有什么api
的
蜂巢亚稳态,我可以使用火花? 有没有办法获得映射
dataframe
row => partition_path
的
内部单元函数?现在我发现
的
唯一方法是FULL OUTER JOIN SQL +SaveMode.Overwrite,它效率不高,因为他会
覆盖
所有的
表
,而我
的
主要兴趣是对某些特定
分区
的
增
浏览 2
提问于2016-10-26
得票数 6
回答已采纳
1
回答
Pyspark sql用于创建配置单元
分区
表
apache-spark
、
pyspark
、
hive
我正在尝试使用
spark
sql从pyspark
dataframe
创建一个
hive
paritioned
表
。下面是我正在执行
的
命令,但得到了一个错误。错误消息如下。df.createOrReplaceTempView(df_view)
spark
.sql("create table if not exists tablename PARTITION (date)df_view") 错误:pyspark.sql.utils.ParseException:u"
浏览 113
提问于2021-09-19
得票数 0
回答已采纳
1
回答
替换
Spark
中
的
配置单元
分区
apache-spark
、
apache-spark-sql
、
spark-dataframe
、
hiveql
有没有办法从
Spark
程序
中
替换(现有的)
hive
分区
?仅替换最新
的
分区
,其余
分区
保持不变。我们每分钟都会从我们
的
RDBMS系统
中
获得跨国
数据
进入HDFS。将有一个
spark
程序(每5分钟或10分钟运行一次)读取
数据
,执行ETL并将输出写入
Hive
Table。由于
覆盖
整个
hive
浏览 12
提问于2018-02-07
得票数 0
回答已采纳
1
回答
使用
Spark
SQL将
数据
插入
静态配置单元
分区
apache-spark
、
hive
我很难弄清楚如何使用
Spark
SQL将
数据
插入
Hive
表
的
静态
分区
。我可以使用这样
的
代码来写入动态
分区
:但是,我不知道如何将
数据
插入
到静态
分区
中
。这意味着,我希望定义
在
不需要向
DataFrame
浏览 1
提问于2016-07-29
得票数 5
2
回答
通过sparkSQL创建蜂窝
apache-spark
、
hive
、
apache-spark-sql
、
data-processing
我对蜂巢
中
的
扣环有一个疑问。我已经创建了一个临时
表
,该
表
在
列关键字上存储桶。当我检查这个
表
的
基目录时,它显示了前缀为part_*
的
文件名。但是,当我通过另一个
表</
浏览 1
提问于2018-08-02
得票数 5
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark SQL,DataFrames 以及 Datasets 编程指南
教程:Apache Spark SQL入门及实践指南!
年薪50万+的大数据工程师需要具备哪些技能?
Hive 3的ACID表
大数据技术分享:关于大数据开发学习的技术点
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券