hive离线数据处理 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

蜂箱更新效率(0.14版)

hadoop、hive

假设我想更新特定事务it (未分区)的行，Hive将如何在内部处理它。据我所知，Hive将首先搜索这个分区(这很慢)，然后更新这个特定的分区(如果有的话)，其中存储了这个包含这个事务处理符的特定行。

浏览 4提问于2015-04-23得票数 1

1回答

如何处理Sqoop中的垃圾字符

sqoop

当使用sqoop从RDMS导入数据到Hadoop时。如果我的源系统包含垃圾字符，我们如何替换它们？

浏览 2提问于2018-06-28得票数 1

回答已采纳

2回答

如何让hive从某个路径加载元存储，而不是在当前目录下创建？

hadoop、hive

我正在使用Hive进行一些数据处理。但是，每当我启动Hive-Shell时，它就会在当前目录中创建一个metastore，并且我无法访问我在另一个目录中创建的表。这让我有点恼火，因为我进入了特定的目录，然后启动Hive-Shell来查看我的表。谢谢

浏览 2提问于2011-03-11得票数 0

回答已采纳

2回答

我对Hive查询很陌生，我正在寻找从Hive表中检索数据的最佳实践。我们已经启用了TeZ具有执行引擎和启用了矢量化。我们希望从Hive表中进行报告，我从TEZ文档中看到，它可以用于实时报告。场景来自我的WEB应用程序，我希望在UI上显示来自Hive query * from Hive表的结果，但是对于任何查询，即使hive表有60 GB的数据，在单元格命令提示符中至少需要20-60秒。1)有谁能告诉我如何通过查询Hive表来显示实时报告，并在10-30秒内立即在UI上

浏览 2提问于2015-03-07得票数 1

回答已采纳

1回答

筛选火花放电中的蜂巢分区表

apache-spark、hive、pyspark

我希望将特定的分区数据加载到我的dataframe中，如下所示：/apps/hive/warehouse/emp.db/partition_load_table/country=NCL df=spark.read.orc("/apps/

浏览 0提问于2018-10-09得票数 0

回答已采纳

1回答

有人能解释一下吗："Spark支持与Hive不同的用例。“

hadoop、hive、apache-spark、shark-sql

我指的是以下链接： Hive是使用星火优化器还是构建自己的优化器？

浏览 4提问于2014-08-27得票数 1

回答已采纳

1回答

我是不是错过了什么来激活pyspark中蜂巢的酸？

apache-spark、hive、pyspark、acid

我想要更新我的hive表中的一些行。因为pyspark根本无法识别更新，所以我选择了DELETE和INSERT，但在DELETE操作上得到了"Operation not allowed“。spark.hadoop.hive.enforce.bucketing=true""")sqlCtx

浏览 17提问于2019-07-26得票数 0

2回答

将星星之火DataFrame写入表

apache-spark、hive、apache-spark-sql

我有以下问题 (我是大数据处理的新手，如果问题的措辞不恰当，请原谅)

浏览 8提问于2020-12-22得票数 2

1回答

Spark与Hive的区别

apache-spark、hive、apache-spark-sql

你能帮我理解星火SQl和蜂巢的区别吗？

浏览 2提问于2017-06-04得票数 1

1回答

使用Python存储和访问大数据

python、bigdata

我即将开始处理大小约为500 GB的数据。我希望能够使用Python在任何给定时间访问数据的小部分。我正在考虑将PyTables或MongoDB与PyMongo (或者Hadoop -谢谢)一起使用。是否有其他我应该考虑的文件结构/DB？干杯

浏览 5提问于2012-10-08得票数 3

回答已采纳

1回答

文本文件或字符串(需要通知)

android、database

我想让我的应用程序离线，这就是不使用Firebase的原因。因此，我需要一个完美的建议，通过它，我想要的事情可以很容易地完成。非常感谢您的帮助。

浏览 4提问于2017-07-31得票数 2

回答已采纳

1回答

在Hadoop上执行更新操作

hadoop、hive

我尝试了用hive，它必须做插入覆盖，这是一个昂贵的操作，我们也可以做一些工作，使用地图还原，这也是一个昂贵的操作。

浏览 1提问于2014-06-19得票数 0

1回答

AWS中ETL的自动蜂巢或级联

hive、etl、emr、cascading

我运行一系列Hive查询来连续运行聚合和过滤condtions来生成两个最终的压缩文件(最大数以百万行的csvs)。到目前为止，对于Hive，我不得不手动运行一个又一个查询(因为有些查询确实由于AWS或其他方面的一些问题而失败)。hive -f s3://mybucket/createAndPopulateTableA.sql hive -f s3://my

浏览 1提问于2014-06-18得票数 0

1回答

Angular PWA离线数据处理

angular、service-worker、angular-service-worker、angular-pwa

我想在我的angular项目中实现服务工作者，使我的web应用程序完全离线工作，这意味着用户应该在离线时处理尽可能多的数据，一旦他们发现互联网，那么数据应该更新与MongoDB (我们正在使用的数据库)

浏览 0提问于2018-05-14得票数 3

1回答

Sqoop将列名写入标头

hadoop、sqoop

我将从Oracle导入一个数据表到HDFS。我需要让Sqoop将列名作为头写入导入文件(以HDFS结尾的文件)。有办法吗？我基本上需要导入文件，如下所示：1，美国帕洛阿尔托3，美国，桑尼维尔1，美国帕洛阿尔托3，美国，桑尼维尔

浏览 3提问于2014-10-02得票数 2

回答已采纳

1回答

从HDFS或蜂巢建立预测模型作为生产环境中训练集和测试集的来源

r、hadoop、hive

使用Apache将数据导入hdfs(我使用--查询将这些特性引入hdfs) 在实际生产环境

浏览 4提问于2014-07-20得票数 0

1回答

IoT流数据处理的最佳实践

events、stream、time-series、mqtt、iot

我假设有成百上千的IoT设备通过MQTT协议将数据发布到(代理)MQTT集群，在代理后面，我有一个数据处理模块，它从代理订阅数据并维护所有这些设备的状态表。设备的数量仍在增加，因此我必须相应地扩展代理集群和数据处理模块，因为Kafka/Rabbit MQ/Hive MQ等MQTT代理可以非常容易地扩展，但对于数据处理模块，我不太确定是否有任何最佳实践或任何框架

浏览 4提问于2016-12-17得票数 3

2回答