腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1400)
视频
沙龙
1
回答
Spark
从
hive
表
中
检索
多个
特征值
,
并合
并到
一个
二维
数组
中
、
、
我有
一个
包含对象ID、特征ID和
特征值
的配置单元
表
,如下所示。我有
一个
特征id
数组
,我用它为每个对象id选择它们的值 ? val arrFeat=Array("Fea1","Feat2","Feat3","Feat4","Feat5") 下面我想把这个数据帧转换成
一个
二维
数组
,用于机器学习。内部的每个
数组
(行)表示单个对象ID的<
浏览 86
提问于2021-07-27
得票数 0
1
回答
如果有在加载阶段拥有'maxRecordsPerFile‘的好方法,就会产生火花
、
、
假设将150个分区
中
的5000个文件加载到我的
spark
应用程序
中
时,我希望将数据分解为15,000个分区,但我希望保留已存在的分区。当然,这方面有很多工作要做,但可能会有一些优雅的解决方案,比如
Spark
在保存阶段: preExportRdd.toDF .option("maxRecordsPerFile",maxCountInPartition
浏览 48
提问于2020-03-25
得票数 1
2
回答
Apache不使用来自
Hive
分区外部
表
的分区信息
、
、
我有
一个
简单的
Hive
外部
表
,它是在S3之上创建的(文件是CSV格式的)。当我运行
hive
查询时,它会显示所有记录和分区。但是,当我在
Spark
中使用相同的
表
时(
Spark
在分区列上有
一个
where条件),它不会显示应用了分区筛选器。然而,对于
Hive
托管
表
,
Spark
可以使用分区信息并应用分区筛选器。是否有任何标志或设置可以帮助我使用星火中的
Hive
外部
表
的分
浏览 0
提问于2019-08-24
得票数 3
1
回答
Hadoop 3
中
的星火和蜂巢: metastore.catalog.default和
spark
.sql.catalogImplementation的区别
、
、
、
、
我正在使用Hadoop 3开发Hadoop集群(HDP),还安装了
Spark
和
Hive
。由于星火目录和
Hive
目录是分开的,所以知道如何在
Spark
应用程序中保存数据,以及在何处保存数据,有时会有些混乱。
Hive
和
表
分离)。当我将它设置为
hive
时,我可以看到我的
Hive
表
,但是由于这些
表
存储在HDFS的/warehouse/tablespace/managed/
hiv
浏览 4
提问于2020-01-24
得票数 9
回答已采纳
1
回答
Spark
SQL如何查询Array[Struct]
中
结构字段的子集?
、
、
我在
Hive
中有
一个
表
,它有
一个
模式: root |-- enddate: string (nullable = true|-- .......: string (nullable = true) |
浏览 32
提问于2019-09-28
得票数 0
2
回答
Hive
和
Spark
的执行差异
、
、
我尝试安装Hadoop、
Hive
和
Spark
,看看它们的性能如何。我能够让Hadoop和
Spark
工作。我不能让蜂巢去工作。当我在
Spark
中
运行查询,在它们通过优化器之后,似乎最大的好处是在最早的时候只
从
源中选择相关的
表
数据。因此,如果我在最终答案
中
只需要Table1.column(A,B,C),但告诉系统在(Table1.A=Table2.B)上加入Table1 & Table2,它会立即将进位
表
减少到只有相关项…我不认为
浏览 44
提问于2021-04-09
得票数 0
回答已采纳
1
回答
如何
从
spark
中
检索
配置单元视图的
表
名
、
、
有
一个
hive
表
员工。在此employee
表
中
,有
一个
视图employee_view 如何
从
spark
中
检索
给定配置单元视图(employee_view)的
表
名(employee)?
浏览 13
提问于2021-06-27
得票数 0
3
回答
对小文件不起作用的合并属性
、
我试图将数据插入创建大量小文件的动态分区
表
中
,我在下面设置了单元格属性,但我仍然可以看到分区文件夹
中
的小文件,每个任务的大小或avgfile大小似乎都适合我,因为分区文件夹
中
的文件高于我给出的每个任务的大小任何帮助都将非常感谢
hive
.merge.mapfiles=true;
hive
合并mapredfiles = true
hive
.merge.size.per.task=10000;
hive
.merge.smallfiles.avgsize
浏览 3
提问于2016-04-05
得票数 3
回答已采纳
2
回答
Uisng配置单元上下文,在本地系统metastore_db
中
本地创建配置单元
表
,而不是在集群上,放置我的配置单元-站点.xml的位置
、
、
、
、
我已经创建了
一个
Spark
上下文对象,并尝试
从
hadoop服务器(不在本地)上的文本文件
中
检索
文本,并且我能够
检索
到它。当我尝试
检索
配置单元
表
(在独立的机器上,集群)时,我无法这样做,而当我创建
一个
配置单元
表
时,它是在metastore_db
中
本地创建的 ObjHiveContext.sql(“创建存储为orc的
表
yahoo_orc_tableserverIp:portNumber
浏览 0
提问于2015-12-18
得票数 0
2
回答
配置单元“alter table <table name> concatenate”是如何工作的?
、
、
、
这是使用配置单元
中
的alter table table_name concatenate命令完成的。 我想了解
Hive
是如何实现这一点的。如果需要的话,我希望使用
Spark
来实现这一点。
浏览 36
提问于2017-01-24
得票数 3
2
回答
从
多个
拼图路径创建
Spark
SQL
表
、
、
、
、
我正在尝试创建
一个
表
,如下所示
spark
.sql(""" """ % target_table_name) create table if notexists {
浏览 37
提问于2018-05-31
得票数 1
1
回答
S3和
spark
。S3上有
多个
蜂窝目标。对某些
表
使用s3:sse,对某些配置单元
表
不使用s3:sse。
、
我想编写
一个
spark
应用程序,在其中我可以
从
多个
hive
表
中
读取数据,并向
多个
hive
表
中
写入数据。然而,这里有
一个
奇怪的地方。我想我要问的问题如下。 假设我正在从
spark
应用程序
中
的
一个</em
浏览 2
提问于2017-04-06
得票数 0
1
回答
无法将ApacheSpark-2.1.0与
Hive
-2.1.1亚稳态连接起来
、
、
、
、
Spark
和
Hive
各自工作都很好,但是当我试图将
Spark
的输出写到
一个
Hive
表
时,我会得到以下错误: 附加注意:从这个
中
,我发现Apache支持
浏览 4
提问于2017-04-20
得票数 1
回答已采纳
3
回答
我可以加入mysql的蜂巢吗?
、
、
我可以连接mysql和
hive
(hdfs上的蜂窝)之间的
表
吗? 有人告诉我它在mysql和甲骨文之间起作用。
浏览 3
提问于2014-12-17
得票数 0
回答已采纳
1
回答
使用scala /
spark
创建单元视图
、
、
如何以编程方式使用
spark
和scala在
Hive
中
创建
多个
表
视图?
从
位于单元
中
的
表
中
创建
一个
视图。
浏览 0
提问于2018-08-08
得票数 1
1
回答
如何
从
Apache
Spark
on Analytics Engine读取和写入配置单元
表
、
、
我想在Watson Studio
中
的Jupyter笔记本上使用
Spark
on analytics engine,以便能够读取和写入
Hive
表
,但我不清楚如何通过读取
Spark
来做到这一点。不清楚的原因是IBM Analytics Engine预配置了
Spark
,并且不提供root访问权限。我在网上找到了一些generic hadoop的帖子,描述了如何使用元存储位置创建
hive
.xml,但不清楚如何将其转换到IBM Analytics Engine环境
中</
浏览 27
提问于2018-06-02
得票数 0
回答已采纳
1
回答
蜂窝分区到火花分区
、
出于效率的原因,我们需要处理
一个
大的数据集。数据源驻留在
Hive
中
,但具有不同的分区条件。换句话说,我们需要从蜂巢
检索
数据到火花,并在星火中重新分区。但是在
Spark
中有
一个
,当数据被持久化时,它会导致重新排序/重新分配分区(无论是对parquet还是ORC)。因此,我们在星火中的新分区丢失了。作为一种选择,我们正在考虑在
一个
新的
Hive
表
中
构建新的分区。问题是:是否可以
从
Hive
浏览 0
提问于2018-07-30
得票数 0
1
回答
registerTempTable()不注册所有记录
、
、
、
、
我尝试创建
一个
函数,
从
关系数据库
中
获取数据并将它们插入
Hive
表
中
。由于我使用
Spark
1.6,所以需要注册
一个
临时
表
,因为将数据直接写入
Hive
表
不是sc = SparkContext(conf=
spark
_conf
一个
文件,在两个小时后创建 因此,当我尝试在作业完成后
从</e
浏览 6
提问于2018-03-05
得票数 0
1
回答
从
spark
sql的s3下载的字节数是
hive
sql的数倍
、
、
我在亚马逊网络服务s3上有
一个
配置单元
表
,其中包含144个csv格式的文件(每个文件20M),总大小为3G;sql很简单,就像'select count(1) from #table#';
从
浏览 18
提问于2018-08-23
得票数 1
1
回答
火花迭代/递归算法.打破火花谱系
、
我有
一个
递归火花算法,它将10天的滑动窗口应用于数据集。在每次迭代时,都会对包含10天窗口的数据集应用一组复杂的操作。然后将最后
一个
日期插入到原始的
Hive
表
中
,然后
从
Hive
加载下
一个
日期,并将其合
并到
剩下的9天。
spark
.cre
浏览 0
提问于2018-09-28
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark Streaming如何读Kafka数据 Hbase如何设计表
Spark SQL,DataFrames 以及 Datasets 编程指南
Flink+ 数据湖 Iceberg 的体验
年薪50万+的大数据工程师需要具备哪些技能?
Flink集成Iceberg在同程艺龙的实践
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券