腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
蜂箱更新效率(0.14版)
hadoop
、
hive
假设我想更新特定事务it (未分区)的行,
Hive
将如何在内部处理它。据我所知,
Hive
将首先搜索这个分区(这很慢),然后更新这个特定的分区(如果有的话),其中存储了这个包含这个事务处理符的特定行。
浏览 4
提问于2015-04-23
得票数 1
1
回答
如何处理Sqoop中的垃圾字符
sqoop
当使用sqoop从RDMS导入数据到Hadoop时。如果我的源系统包含垃圾字符,我们如何替换它们?
浏览 2
提问于2018-06-28
得票数 1
回答已采纳
2
回答
如何让
hive
从某个路径加载元存储,而不是在当前目录下创建?
hadoop
、
hive
我正在使用
Hive
进行一些
数据处理
。但是,每当我启动
Hive
-Shell时,它就会在当前目录中创建一个metastore,并且我无法访问我在另一个目录中创建的表。这让我有点恼火,因为我进入了特定的目录,然后启动
Hive
-Shell来查看我的表。谢谢
浏览 2
提问于2011-03-11
得票数 0
回答已采纳
2
回答
如何提高蜂箱中从非分区表加载数据到ORC分区表的性能
hadoop
、
hive
、
hadoop-yarn
、
azure-hdinsight
我对
Hive
查询很陌生,我正在寻找从
Hive
表中检索数据的最佳实践。我们已经启用了TeZ具有执行引擎和启用了矢量化。 我们希望从
Hive
表中进行报告,我从TEZ文档中看到,它可以用于实时报告。场景来自我的WEB应用程序,我希望在UI上显示来自
Hive
query * from
Hive
表的结果,但是对于任何查询,即使
hive
表有60 GB的数据,在单元格命令提示符中至少需要20-60秒。1)有谁能告诉我如何通过查询
Hive
表来显示实时报告,并在10-30秒内立即在UI上
浏览 2
提问于2015-03-07
得票数 1
回答已采纳
1
回答
筛选火花放电中的蜂巢分区表
apache-spark
、
hive
、
pyspark
我希望将特定的分区数据加载到我的dataframe中,如下所示:/apps/
hive
/warehouse/emp.db/partition_load_table/country=NCL df=spark.read.orc("/apps/
浏览 0
提问于2018-10-09
得票数 0
回答已采纳
1
回答
有人能解释一下吗:"Spark支持与
Hive
不同的用例。“
hadoop
、
hive
、
apache-spark
、
shark-sql
我指的是以下链接:
Hive
是使用星火优化器还是构建自己的优化器?
浏览 4
提问于2014-08-27
得票数 1
回答已采纳
1
回答
我是不是错过了什么来激活pyspark中蜂巢的酸?
apache-spark
、
hive
、
pyspark
、
acid
我想要更新我的
hive
表中的一些行。因为pyspark根本无法识别更新,所以我选择了DELETE和INSERT,但在DELETE操作上得到了"Operation not allowed“。spark.hadoop.
hive
.enforce.bucketing=true""")sqlCtx
浏览 17
提问于2019-07-26
得票数 0
2
回答
将星星之火DataFrame写入表
apache-spark
、
hive
、
apache-spark-sql
我有以下问题 (我是大
数据处理
的新手,如果问题的措辞不恰当,请原谅)
浏览 8
提问于2020-12-22
得票数 2
1
回答
Spark与
Hive
的区别
apache-spark
、
hive
、
apache-spark-sql
你能帮我理解星火SQl和蜂巢的区别吗?
浏览 2
提问于2017-06-04
得票数 1
1
回答
使用Python存储和访问大数据
python
、
bigdata
我即将开始处理大小约为500 GB的数据。我希望能够使用Python在任何给定时间访问数据的小部分。我正在考虑将PyTables或MongoDB与PyMongo (或者Hadoop -谢谢)一起使用。是否有其他我应该考虑的文件结构/DB?干杯
浏览 5
提问于2012-10-08
得票数 3
回答已采纳
1
回答
文本文件或字符串(需要通知)
android
、
database
我想让我的应用程序
离线
,这就是不使用Firebase的原因。因此,我需要一个完美的建议,通过它,我想要的事情可以很容易地完成。 非常感谢您的帮助。
浏览 4
提问于2017-07-31
得票数 2
回答已采纳
1
回答
在Hadoop上执行更新操作
hadoop
、
hive
我尝试了用
hive
,它必须做插入覆盖,这是一个昂贵的操作,我们也可以做一些工作,使用地图还原,这也是一个昂贵的操作。
浏览 1
提问于2014-06-19
得票数 0
1
回答
AWS中ETL的自动蜂巢或级联
hive
、
etl
、
emr
、
cascading
我运行一系列
Hive
查询来连续运行聚合和过滤condtions来生成两个最终的压缩文件(最大数以百万行的csvs)。到目前为止,对于
Hive
,我不得不手动运行一个又一个查询(因为有些查询确实由于AWS或其他方面的一些问题而失败)。
hive
-f s3://mybucket/createAndPopulateTableA.sql
hive
-f s3://my
浏览 1
提问于2014-06-18
得票数 0
1
回答
Angular PWA
离线
数据处理
angular
、
service-worker
、
angular-service-worker
、
angular-pwa
我想在我的angular项目中实现服务工作者,使我的web应用程序完全
离线
工作,这意味着用户应该在
离线
时处理尽可能多的数据,一旦他们发现互联网,那么数据应该更新与MongoDB (我们正在使用的数据库)
浏览 0
提问于2018-05-14
得票数 3
1
回答
Sqoop将列名写入标头
hadoop
、
sqoop
我将从Oracle导入一个数据表到HDFS。我需要让Sqoop将列名作为头写入导入文件(以HDFS结尾的文件)。有办法吗?我基本上需要导入文件,如下所示:1,美国帕洛阿尔托3,美国,桑尼维尔1,美国帕洛阿尔托3,美国,桑尼维尔
浏览 3
提问于2014-10-02
得票数 2
回答已采纳
1
回答
从HDFS或蜂巢建立预测模型作为生产环境中训练集和测试集的来源
r
、
hadoop
、
hive
使用Apache将数据导入hdfs(我使用--查询将这些特性引入hdfs) 在实际生产环境
浏览 4
提问于2014-07-20
得票数 0
1
回答
IoT流
数据处理
的最佳实践
events
、
stream
、
time-series
、
mqtt
、
iot
我假设有成百上千的IoT设备通过MQTT协议将数据发布到(代理)MQTT集群,在代理后面,我有一个
数据处理
模块,它从代理订阅数据并维护所有这些设备的状态表。设备的数量仍在增加,因此我必须相应地扩展代理集群和
数据处理
模块,因为Kafka/Rabbit MQ/
Hive
MQ等MQTT代理可以非常容易地扩展,但对于
数据处理
模块,我不太确定是否有任何最佳实践或任何框架
浏览 4
提问于2016-12-17
得票数 3
2
回答
hadoop和spark有什么区别?
hadoop
、
apache-spark
随着see在市场上的增长,我可以看到spark在Hadoop上的主要用例如下: 而且处理得很快。 火花会在未来几天取代Hadoop吗?
浏览 0
提问于2015-07-08
得票数 3
回答已采纳
2
回答
Hive
:数据验证/错误
数据处理
?
validation
、
hadoop
、
hive
在将“外部”数据引入
Hive
时,验证它是否“干净”的最佳方法是什么?我们不希望任何无效值进入我们的
Hive
表。
浏览 0
提问于2015-06-16
得票数 0
2
回答
失败:执行错误,从org.apache.hadoop.
hive
.ql.exec.DDLTask返回代码1。org/apache/hadoop/
hive
/SerDe 2/SerDe
hadoop
、
hive
、
hiveql
我正在将twitter
数据处理
为
hive
外部表,但在创建
hive
外部表时,我得到了一个错误。请查看下面的我的代码。 我在
hive
目录中添加了流动的jars:请查找外部蜂箱表statuses_count:INT、验证:布
浏览 1
提问于2017-12-12
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券