#Hive

Apache Hive是一个建立在Hadoop架构之上的数据仓库。它能够提供数据的精炼,查询和分析。

关于cos的上传问题?目标路径存在但对象不存在就不上传了?

你上传方式是什么? api、sdk、官方工具? https://cloud.tencent.com/document/product/436/7749 看官网api,上传是支持覆盖的... 展开详请

hive 两个时间的时间差如何与7个工作日做比较?

HKC

红客学院 · 创始人 (已认证)

道可道 非常道 名可名 非常名
你需要根据https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-DateFunctions提出自己的逻辑 查看datediff函数然后弄清楚它是否是工作日,你也可...... 展开详请

Hive 2.3.3修改分区表字段名后,查询该列数据为null ?

我也遇到了同样到问题,自己部署的测试机器 是没有问题的,换到 emr 上就不行了

hive 有没有办法实现一行 按照 某两列的数值 拆分成多行的方法?

kerberos缓存了hive用户没权限?

CREATE_17专注于Ambari、Hadoop、Kerberos等大数据相关的实战演练,如安装部署、配置修改、排障过程、性能调优。
很高兴能为您解答,是这样的: 如果需要使用beeline操作的话,需要先进行Kerberos认证,认证方式有两种,分别为: 直接认证Kerberos principal,但需要手动输入密码:比如:kinit admin@EXAMPLE.COM 通过密钥(keytab)认证Kerb...... 展开详请

hive中查询ip段能用between and吗?

如何在Hive中获取周日?

迷迭香别给自己太大压力
已采纳
使用u参数获取工作日,然后使用算术将星期开始日期视为星期一。 select date_add(to_date(evt_time) ,1-cast(from_unixtime(unix_timestamp(to_date(evt_time),'yy...... 展开详请

Hive - 随机分配Mappers中的记录?

你孩子啊社会不会同情弱者!

固定。显然,被查询的表只有HDFS中的10个文件,因此只能使用10个映射器。

如何使用聚合在Hive中透视数据?

case与sum聚合一起使用: select ColumnA, sum(case when ColumnB='complete' then 1 else 0 end) as Complete, sum(case when Col...... 展开详请

使用INSERT覆盖导出带有标头的hive表?

蓝蓝天上vzh怪兽工程师
如果你仍然没有看到它,那么你只能使用类似于下面的查询获得标题,并在编写内容之前将其写入你的输出文件中。 header=`<BEELINE_CONN_STRING> --silent=true --outputformat=dsv --delimiterForDSV=<delim...... 展开详请

如何在hive中显示表格格式数据?

五星格兰特就事论事不撕逼!三观不合删评价!
代码如下: CREATE TABLE dbname.tablename( col_1 integer, col_2 integer) row format delimited fields terminated by '|' stored as textfile; 此外,从HD...... 展开详请

HIVE:CREATE TABLE AS SELECT命令无法指定目标表的列列表

成品冻K感情是人一辈子也捉摸不透的东西
根据定义,CREATE TABLE AS SELECT用于将结果集持久化为表。这意味着,如果希望新表具有不同的列名,则需要使用不同的结果集来创建它。一种简单的方法是使用列别名: create table t2 as select a as c, b as d from tem...... 展开详请

Hive tips 是否可以在亚马逊EMR上降低100%的CPU使用率?

742512027cdb不要轻易地考验人性
已采纳

此查询期间节点上的内存使用情况如何?

高CPU使用率本质上并不是一件坏事。

可以考虑使用更多,更大的节点来在更短的时间内完成作业。这可能需要一些实验。例如,我们发现切换到更大的节点使得我们的作业比原来使用更多m1.large实例的运行速度更快。

如何使用Hive查询中的ROW_Number获取最新的用户登录?

名字真难选a梦想成为一个有趣的人
如果你正在查找访问报表的最新用户ID,则按时间戳降序对记录进行排序,并使用以下方法获取第一行limit select userid, b.email from logs a join mongo.user b on a.userid = b.id where a.dt >=...... 展开详请

在WHERE子句中使用Hive不孕结果

土子美互联网从业者
已采纳
不能在WHERE子句中放置窗口函数,因为如果有复合谓词,它会造成歧义。所以使用子查询。 select quartile, max(total_views) from (SELECT total_views, NTILE(4) OVER (ORDER BY total_views...... 展开详请

是否删除单元中外部表中的分区删除数据?

没有外部表只有将被删除的引用,实际文件仍将保留在位置。 外部表数据文件不归表所有,也不移动到hive仓库目录 只会从hive Metastore表中删除PARTITION元数据。 内部和外部表之间的区别: 对于外部表 - 外部表将文件存储在HDFS服务器上,但表未完全链接到...... 展开详请

[NSKeyedUnArchiver initForReadingWithData:]:data为NULL

郁闷的阿涛不优雅的人
已采纳
如果你可以先查看密钥,然后再解压缩,可以这样做: if ([[[NSUserDefaults standardUserDefaults] dictionaryRepresentation].allKeys containsObject:@"keyForNonMandatoryO...... 展开详请

如何编写子查询并使用Hive中的“In”子句?

叶叶程序猿,码农
LEFT SEMI JOIN以有效的方式实现相关的IN / EXISTS子查询语义。由于Hive目前不支持IN / EXISTS子查询,因此可以使用LEFT SEMI JOIN重写查询。使用LEFT SEMI JOIN的限制是,只能在连接条件中引用右侧表,而不能在WHERE或S...... 展开详请

如何选择列并在Hive中执行TRANSFORM?

已采纳

显然这是不可能的。在fake.py有来处理为好,即一个必须做

SELECT
    TRANSFORM(a, b, c) USING 'fake.py' AS a, d
FROM test_table;

并使其成为fake.py并输出'a'。

使用EMR/Hive从S3将数据导入DynamoDB时如何处理引号(CSV)中的字段

我也被困在同一个问题上,因为我的字段用双引号括起来,用分号(;)分隔。我的表名是Employee 1。 因此,我已经搜索了链接,我已经找到了完美的解决方案。 我们得用serde来解决这个问题。请使用以下链接下载serdejar:... 然后使用单元提示符执行以下步骤: add ...... 展开详请

扫码关注云+社区