HiveQL_HiveQL -分组计数_NOT IN subquery with hiveql retuning null - 腾讯云开发者社区

sql、hiveql

我计划从HiveQL迁移到SQL，但我不知道这两种语言之间的限制或关注点。我知道从SQL到HiveQL有一些限制。例如，1:SQL可以按一个"FROM“语句设置两个或多个表，但HiveQL不能。2:SQL可以按列排序，列不是"SELECT"，但HiveQL不能。3:SQL可以在"WHERE”语句中使用" in“，但HiveQL不能。等等。我想知道的是，当HiveQL迁移到SQL时，是否存在任何存储点或关注点。我做了一些研究，但没有找到。没有手术吗？谢谢。

浏览 5提问于2022-07-12得票数 0

1回答

配置单元-检查表的每一行中的数组是否包含另一个表中的列中的任何匹配数据

sql、hadoop、hive、bigdata、hiveql

我有两个包含列的表，如下所示。 Posts: user STRING, tag_list ARRAY<STRING> Tags: tag STRING 下面是这些表中的一些示例数据。 Posts: user1 help, pig user2 bigdata, hadoop, query, hiveql user1 hive, hiveql, help Tags: hadoop hiveql 如果我只想过滤出Posts表中包含标签表中列出的标签的行，如下面的结果所示，我该如何在配置单元查询中做到这一点？我不确定如何使用array_contains连接这两个表。 Exp

浏览 5提问于2014-01-28得票数 6

1回答

星火虫的蜂巢查询-解析失败

scala、hadoop、hive、apache-spark、hiveql

我试着用火花弹来做这件事： val hiveCtx = new org.apache.spark.sql.hive.HiveContext(sc) val listTables = hiveCtx.hql("show tables") 第二行无法执行以下消息：警告:有1次反对警告；org.apache.spark.sql.hive.HiveQl$ParseException:未能解析:在org.apache.spark.sql.hive.ExtendedHiveQlParser$$anonfun$hiveQl$1.apply(ExtendedHiveQlParser.sca

浏览 3提问于2015-02-25得票数 1

回答已采纳

1回答

如何在hiveql中使用'if‘'else’语句？

hiveql

我不确定我们是否可以在Hiveql中使用if else。所以我想知道如何在hiveql中编写if else语句

浏览 2提问于2019-09-04得票数 0

2回答

星火SQL本机语法和Hive QL语法之间有什么区别？

apache-spark、hive、apache-spark-sql、hiveql

在Spark正式文档中，提到了两种类型的SQL语法: Spark原生SQL语法和Hive QL语法。我找不到他们差别的详细解释。我被以下问题弄糊涂了：星火本机SQL语法是Hive QL的一个子集吗？我这么问是因为他们在一些文章里这样说。根据星火官方页面中的解释，Spark似乎不支持Hive的所有功能。如果问题1是肯定的，为什么我可以在Spark中运行"join A rlike B“，而不能在Hive中运行？星火如何将SQL语句视为星火本机SQL或Hive QL？当我们在星火会话初始化期间使用enableHiveSupport时，这是否意味着Spark将将所有给定

浏览 4提问于2021-01-30得票数 1

回答已采纳

2回答

HiveQL等价于MySQL的TRUNCATE()？

mysql、sql、hiveql

MySQL的TRUNCATE()在HiveQL中的等价物是什么在MySQL中： mysql> SELECT TRUNCATE(2.465, 1); +-------------------+ | TRUNCATE(2.465,1) | +-------------------+ | 2.4 | +-------------------+ 我只知道HiveQL的ROUND()，但是我不希望发生任何舍入。参考：

浏览 23提问于2020-02-08得票数 0

2回答

多连接的HiveQL查询

sql、join、hive、hiveql

我是个新手。我试图为联接实现一个简单的HiveQL查询。但是，由于缺乏HiveQl方面的知识，以及与HiveQL相关的互联网上可用资源少得令人惊讶，我不得不构建一个简单的查询，在常规SQL中只需几秒钟。设想情况：我有四张桌子。每个表都有"playerid“列。我只想将所有表连接在一起，并输出如下SQL中提到的结果。例：- select A.column1 ,B.column2,C.column3,D.column4 from Table1 A,Table2 B,Table3 C,Table4 D where A.playerid = B.playerid and A.playe

浏览 3提问于2014-04-18得票数 0

回答已采纳

1回答

如何在Hiveql中以递归方式生成数字序列？

sql、hive、db2、hiveql

我最近从DB2搬到了hiveql。有一个查询，我用它递归地生成一个数字序列，比如1到1000。下面是使用的代码； WITH TB (N) AS (VALUES (100) UNION ALL SELECT N + 100 FROM TB WHERE N + 1 <= 5000) SELECT * FROM TB; 我可以用这段代码生成任何我想要的序列，但现在在Hiveql中，像VALUES()或WITH TB (N)这样的东西似乎不能像在DB2中那样工作。有没有办法在hiveql中生成这样的序列？

浏览 125提问于2019-08-22得票数 2

回答已采纳

1回答

HiveQL中的变量

variables、hive、hiveql、azure-data-factory、azure-hdinsight

背景：作为现代化工作的一部分，我正在尝试将一个大的存储过程转换为HiveQL脚本。HiveQL脚本作为配置单元活动的一部分，无论何时从Azure数据工厂触发管道，都会在Azure HDInsight集群上运行。我尝试转换的存储过程有很多使用'DECLARE‘语句声明的变量。例如： DECLARE @Variable1 INT; 这些变量中的值使用SELECT语句设置。例如： SELECT @Variable1 = ColumnName1 FROM Table_Name; 这些变量在整个存储过程中被引用，如下所示： SELECT * FROM Some_Table where C

浏览 19提问于2019-10-11得票数 1

1回答

将SQL插入select问题

apache-spark、hive、apache-spark-sql

INSERT INTO hive_table SELECT b.id,a.id FROM hive_table_1 a,hive_table_2 b WHERE a.id BETWEEN b.id1 AND b.id2; 在spark上执行这样的SQL -sql got错误：错误CliDriver: org.apache.spark.sql.AnalysisException:缺少“hive_table”附近的表；第1行pos 12 在org.apache.spark.sql.hive.HiveQl$.createPlan(HiveQl.scala:289) 在org.apache.spa

浏览 5提问于2015-07-09得票数 4

1回答

VARCHAR(254)诉VARCHAR(255)

hadoop、hive、hiveql

我读过这个关于MySQL中VARCHAR(254)和VARCHAR(255)之间的区别。在HiveQL中有类似的东西必须考虑吗？也许HiveQL实现了一些类似于MySQL的存储引擎，在设计表时应该记住这一点。

浏览 1提问于2016-02-25得票数 1

回答已采纳

1回答

是否可以从文件中加载hiveconf变量？(独立于HiveQL文件)

hadoop、hive、config、hiveql、hive-configuration

我通常有一个很大的HiveQL块，我希望对一些变量使用不同的设置多次运行。一个简单的例子是： set mindate='2015-01-01 00:00:00' set maxdate='2015-04-01 00:00:00' select * from my_table where the_date between ${hiveconf:mindate} and ${hiveconf:maxdate} 然后通过hive -f myfile.sql > myout.log运行稍后，我希望更改变量并重新运行。我还想要一个记录，说明每次运行变量时变量的值

浏览 4提问于2016-09-02得票数 2

回答已采纳

1回答

HiveQL - String包含在hiveql中等效的字符串？

sql、string、hive、substring、hiveql

我想使用hiveql检查字符串是否包含任何特定字符？我碰到了下面的那个。 find_in_set(str, strlist) 这是正确的UDF使用吗？例如，：下面的列在值中包含"1“。 column1 = "test1String" 我需要编写一个HiveQL，其中条件返回带有column1值的行包含1。

浏览 3提问于2016-07-01得票数 6

1回答

如何在Babel解析器中添加“侧视爆炸”等关键字

sql、apache-calcite

我想把SQL语句(ANSI SQL或HiveQL)解析成等价的AST。当我试图解析包含“横向视图分解”关键字的语句时，这是一个有效的HiveQL语法，Babel失败并返回ParseException。将这些作为关键字添加到Babel的默认关键字列表中也无济于事。有人能给我举一个类似的例子吗？

浏览 29提问于2019-10-18得票数 3

1回答

为什么使用nifi putHDFS命令？

apache-nifi

由于"load local“命令可以将数据从本地文件系统加载到hive表中，我不知道为什么大多数人会喜欢putHFDS + replaceText + HiveQL。在工作流中只使用"replaceText + HiveQL“而不是增加1个处理器:putHDFS不是更好吗？

浏览 23提问于2017-12-16得票数 0

1回答

CCDH认证中的“查询目标”具体意味着什么？

hadoop、cloudera

我正在计划CCDH认证。有人能帮我做以下要求吗？我们是否需要编写与HiveQL类似的MR代码，如select、join等？或者是别的什么东西？查询目标 - Write a MapReduce job to implement a HiveQL statement. - Write a MapReduce job to query data stored in HDFS.

浏览 0提问于2015-05-23得票数 0

1回答

自定义映射器和减速器与HiveQL的比较

performance、hadoop、mapreduce、hive、hiveql

问题陈述：- 我需要比较两个表，Table1和Table2，它们都存储相同的东西。因此，我需要比较Table2和Table1，因为Table1是需要进行比较的主要表。因此，在比较之后，我需要做一份报告，说明Table2存在某种差异。这两个表有大量的数据，围绕着TB的数据。因此，目前我已经编写了HiveQL来进行比较并获得数据。因此，我的问题是，从PERFORMANCE的角度看哪一个更好:编写一个CUSTOM MAPPER and REDUCER来完成这种工作，还是我编写的HiveQL会更好，因为我将在数百万条记录上加入这两个表。据我所知，HiveQL内部(幕后)生成优化的自定义地图还原器，并

浏览 1提问于2012-07-09得票数 1

回答已采纳

1回答

Hiveql中两个日期的差异

sql、hive、sas、hiveql

我希望在Hiveql中找到日期格式中的两个日期之间的差异。我使用SAS中的blow函数减去一个数字来返回日期值。 intnx('day', 20MAR2019 , -7) 从日期起减去7天，并返回13MAR2019。我想把它转换成Hiveql语言。任何提示都将不胜感激！

浏览 1提问于2019-07-25得票数 3

回答已采纳

1回答

使用hive/sql和spark读取json键值

hadoop、hive、apache-spark、apache-spark-sql

我试图将这个json文件读入一个单元表中，顶层键，即1,2..，这里是不一致的。 { "1":"{\"time\":1421169633384,\"reading1\":130.875969,\"reading2\":227.138275}", "2":"{\"time\":1421169646476,\"reading1\":131.240628,\"reading2\":226.810211}", "

浏览 1提问于2015-01-13得票数 5

1回答

在单元格中删除和覆盖外部表

hive、hiveql、hiveddl

我需要使用SELECT子句的输出在hiveql中创建一个外部表。每次运行HiveQL时，都应该删除并重新创建表。当我们删除外部表时，只有表结构被删除，而不是HDFS位置的数据文件。如何做到这一点？

浏览 1提问于2018-10-11得票数 2

1回答

HIVEQL -如何为JSON值编写条件

json、hiveql

我从dynamoDB导出的一个表中包含以下数据： ... SUID{ "s": {\"profileElementType\":\"1\",\"version\":0,\"seq\":1,\"sUid\":\"15141\"}" } OPTED{ "s": "{\"profileElementType\":\"2\",\"version\":0,\"seq\":4,\

浏览 2提问于2013-09-13得票数 1

1回答

Hadoop中的SQL to HiveQL

hadoop、hive、hiveql、impala

我正在尝试编写一个HiveQL查询，它通过BAN列连接两个数据集，其中一个数据集时间戳是其他数据集时间戳之后的72+。我可以用SQL编写它，但是在HiveQL中语法不一样。有人能帮忙吗？例如： SELECT * FROM Session_Step_Table, Case_Table WHERE Session_Step_Table.BAN = Case_Table.BAN AND DATEADD(hour, 72, Session_Step_Table.timestamp) <= Case_Table.timestamp

浏览 1提问于2015-06-17得票数 0

回答已采纳

1回答

带有蜂巢DW的MongoDB

mongodb、hadoop、hive、data-warehouse、nosql

我计划第一次在MongoDB中构建一个MongoDB。有人向我建议，如果我需要对数据集进行更复杂的分析，我应该使用Hadoop进行map-还原。在发现Hive之后，我喜欢通过一种类似于SQL的语言来进行映射。但我的疑问是，我是否可以直接将HiveQL查询放到mongodb中，而不需要在Hadoop之上构建HiveQL呢？因为在所有用例中，我发现它似乎只适用于Hadoop中的数据。

浏览 4提问于2014-02-25得票数 0

回答已采纳

1回答

使用Spark-SQL连接到配置单元

apache-spark、hive、apache-spark-sql

我正在使用Spark-SQL运行配置单元查询。我创建了一个蜂窝上下文对象 val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc); 然后，当我尝试运行该命令时： hiveContext.sql("use db_name"); 或 hiveContext.hiveql("use db_name"); 它不起作用。当我尝试运行时，它会显示database not found. val db = hiveContext.hiveql("show databases"); db.co

浏览 0提问于2016-02-18得票数 0

4回答

火花2:当调用SparkSession enableHiveSupport()时，它是如何工作的

apache-spark、hive、apache-spark-sql、hiveql

我的问题相当简单，但不知怎的，我无法通过阅读文档找到一个明确的答案。我让Spark2运行在CDH5.10集群上。还有蜂巢和一个亚稳态。我在星火计划中创建了一个会话，如下所示： SparkSession spark = SparkSession.builder().appName("MyApp").enableHiveSupport().getOrCreate() 假设我有以下HiveQL查询： spark.sql("SELECT someColumn FROM someTable") 我想知道是否：在遮罩下，此查询被转换为Hive MapReduce原

浏览 3提问于2018-09-04得票数 12

3回答

HiveQL从employee表中找到第二大薪资？

hive、hiveql

如何使用HiveQl从employee表中找到第二大薪资？

浏览 3提问于2015-12-18得票数 0

回答已采纳

2回答

如何更新/删除Spark-hive中的数据？

java、scala、hive、apache-spark-sql、spark-hive

我认为我的标题不能解释这个问题，所以问题是：详细信息build.sbt： name := "Hello" scalaVersion := "2.11.8" version := "1.0" libraryDependencies += "org.apache.spark" %% "spark-core" % "2.1.0" libraryDependencies += "org.apache.spark" %% "spark-sql" % "2.

浏览 14提问于2017-04-27得票数 5

1回答

蜂巢。选择过去N周的数据

mysql、hive、hiveql

我正在将一些MySQL查询重写为HiveQL，有些东西我有一段时间没能解决。 MySQL语法如下(bc_date是一个日期)： WHERE date_format(bc_date, '%x-%v') >= date_format(CURRENT_DATE - INTERVAL 16 WEEK, '%x-%v') 如何在HiveQL中表达这一点？我的Hive版本不支持date_format函数，“从Hive1.2.0开始”是可用的

浏览 0提问于2016-04-06得票数 0

回答已采纳

1回答

配置单元中的占位符符号是什么

hive、hiveql

什么是PlaceHolder sign in Hive (HiveQL)？像其他语言一样有"?“或者"$“符号。

浏览 0提问于2016-06-20得票数 0

1回答

HiveQL in MongoDB

mongodb、hadoop、hive、hiveql、nosql

我一直在研究NoSQL和Hadoop的数据仓库，但是我以前从来没有使用过这种技术，我想询问一下下面的内容是否可以检查我对这种技术的理解是否正确。如果我的数据存储在MongoDB中，我是否可以使用使Hiveql查询直接到MongoDB，并将这些查询的输出再次存储在MongoDB中，而不是HDFS中？此外，如果我正确理解了大多数NoSQL数据库不支持连接和聚合，但是可以通过map-reduce使它们成为可能。如果HiveQL查询是map--当我在HiveQL中加入时减少作业--对我来说，它是否已经自动“加入”了地图中的MongoDB数据--减少，而不必担心缺乏对MongoDB中的连接和聚合的支

浏览 0提问于2014-02-21得票数 0

回答已采纳

1回答

HiveQL中JSON的array_contains等效项

hive、hiveql

HiveQL为其数组数据类型提供了一个array_contains()函数，并且还提供了json支持。但是，get_json_object()函数在获取json数组时不返回数组数据类型，这意味着不能在生成的json_array上使用array_contains()函数。在HiveQL中模仿json数组的array_contains()功能的最佳方式是什么？作为一个具体的例子，我希望下面的代码返回true： array_contains_mimic(get_json_object({"array":"one"，"two"}，'$.ar

浏览 6提问于2013-11-09得票数 1

2回答

配置单元生成的MapReduce代码

hadoop、mapreduce、hive

Apache HiveQL将其生成的映射/还原代码存储在哪里？

浏览 2提问于2013-01-23得票数 3

1回答

将非Java蜂巢的输出转换为映射

python、hive、user-defined-functions、hiveql

我正在试验用Python编写的Hive UDAF，如： SELECT TRANSFORM(id, vtype, price) USING 'udaf.py' AS (vtype STRING, stats MAP<STRING,FLOAT>) FROM (SELECT * FROM foo CLUSTER BY vtype) AS TEMP_TABLE; python脚本将vtype和一些统计数据(例如平均值和方差)作为字典写入标准输出，该输出由一个工作良好的制表器隔开。我遇到的问题是，我无法确定如何格式化定义stats映射的字段，以便H

浏览 1提问于2016-10-25得票数 1

回答已采纳

1回答

如何统计基于两个分组变量的相同聚类的观测值数量？

sql、hive、hiveql

在HiveQL中，如何根据group1和group2计算具有相同分组的id的数量 +-----+--------+--------+ | id1 | group1 | group2 | +-----+--------+--------+ | 1 | Z | a | | 2 | Z | a | | 3 | Z | b | | 4 | Z | c | | 5 | Y | d | +-----+--------+--------+ 返回的结果应该是3，因为我们应该取{(Z，a)(Z

浏览 4提问于2016-10-15得票数 0

1回答

如何使用预提交验证Hive HQL语法？

git、hive、hiveql、pre-commit-hook、pre-commit

是否有一个钩子来验证HiveQL语句中的错误，比如基本的语法错误？我想在提交到git仓库之前检查语句。

浏览 14提问于2021-07-21得票数 1

1回答

如何在Hdfs中访问数据？在Hadoop2.0中

mapreduce、hive、hiveql、hadoop-yarn

我喜欢在Hadoop2.0上运行WordCount示例。我知道，我们可以运行java程序(映射器和还原程序)，也可以使用简单的HiveQL。当我编写HiveQL以运行WorCount示例时，我的理解是HIVE将SQL转换为MapReduce程序并为我运行示例。话虽如此，纱线体系结构表示，除了运行MapReduce应用程序外，user现在还允许用户使用非Mapreduce应用程序，如HIVE、PIG、Impala等。我无法把这里的点点滴滴连接起来。HiveSQL不是MapReduce程序吗？

浏览 3提问于2014-11-13得票数 0

回答已采纳

2回答

分析没有实际执行的HiveQL查询的运行时特性

hadoop、hive、hiveql

在没有(a)执行查询或(b)获取结果的情况下，如何确定HiveQL查询的近似运行时？

浏览 7提问于2014-06-18得票数 0

回答已采纳

3回答

与HiveQL中的任何函数类似

hadoop、hive、hiveql

在HiveQL中，是否有与以下语句匹配的表达式的等价物？ Like ANY ('%XYZ' , '%ABC%')

浏览 0提问于2015-11-13得票数 1

1回答

如何使用NIFI处理器将错误消息写入日志

apache-nifi

这里有一种使用处理器从日志中获取消息的方法吗？当*HiveQL处理器收到错误时，我喜欢发送显示在日志中的消息。

浏览 4提问于2016-11-21得票数 3

回答已采纳

1回答

使用HiveQL正则表达式提取句点之前的所有字符？

sql、regex、hive、hiveql

我有张桌子看起来像： bl.ah foo.bar bar.fight 我想使用HiveQL的regexp_extract返回 bl foo bar

浏览 1提问于2016-08-29得票数 4

回答已采纳

1回答

在HiveQL中为每个数据值范围显示一定数量的数据

hive、count、range

我是这里的新手，HiveQL的新手。我想问一下，如何为HiveQL中的每个数据值范围显示一定数量的数据？例如，我有一组数据： Name Age A 34 B 38 C 39 D 35 E 26 F 34 G 34 H 26 I 27 J 27 K 30 L 31 M 42 N 39 O 37 P 22 Q 19 R 20 S 40 我只想显示每个年龄组16-25，

浏览 1提问于2020-02-10得票数 0

回答已采纳

1回答

如何计算蜂箱中的周数？

date、hadoop、timestamp、hiveql

背景 Postgresql有一个很好的函数date_trunc()，这使得计算每周开始的日期变得很容易。这对于一周内的聚合是很好的。例如： SELECT date_trunc('week', create_date), count(*) FROM ... GROUP BY 1; HiveQL有一个函数WEEKOFYEAR()，它给出了星期数。如果将此与YEAR()相结合，则可以生成与postgres中相同类型的聚合。 SELECT YEAR(create_date), WEEKOFYEAR(create_date), count(*) FRO

浏览 1提问于2014-10-28得票数 0

回答已采纳

1回答

如果条件为真，则SQL/HQL写入表

sql、hive、hiveql

有没有办法做像这样的事情 IF (numRows A > numRows B) THEN write A into C 其中A、B、C是具有相同模式的表？我正在使用HiveQL。

浏览 9提问于2020-06-17得票数 1

3回答

删除多个重复行

sql、hive、count

此代码在表中找到重复行。H SELECT position, name, count(*) as cnt FROM team GROUP BY position, name, HAVING COUNT(*) > 1 如何删除在Hiveql中找到的重复行？

浏览 2提问于2020-09-17得票数 0

回答已采纳

3回答

hive中的rank()

sql-server、hadoop、hive

我正在将SQL Server存储过程转换为HiveQL。如何转换类似以下内容的内容： SELECT p.FirstName, p.LastName, RANK() OVER (ORDER BY a.PostalCode) AS Rank

浏览 0提问于2013-01-09得票数 2

回答已采纳

2回答

PySpark HiveContext误差

apache-spark、hive、hiveql、pyspark

我试图使用以下命令使用PySpark刷新表分区。我可以发出任何其他SQL命令，但是MSCK REPAIR TABLE给我带来了问题。代码： conf = SparkConf().setAppName("PythonHiveExample")\ .set("spark.executor.memory", "3g")\ .set("spark.driver.memory", "3g")\ .set("s

浏览 3提问于2015-10-08得票数 2

1回答

生产环境中的Hive与Spark

apache-spark、hive、apache-spark-sql、bigdata、hiveql

我正在寻找Hive vs Spark在实际生产环境中的用例。这两种技术在生产环境中共存吗？如果是，哪些类型的转换可以通过HiveQL完成，哪些情况可以通过SparkSQL处理？

浏览 0提问于2018-06-05得票数 0

1回答

Java和Hive :启动hql脚本

java、hive、hiveql

我有一些HiveQL脚本，它们存储在.hql文件中。使用Java/JDBC程序在Hive服务器上执行这些脚本的最佳方法是什么？

浏览 3提问于2013-07-30得票数 0

1回答

hive sql语句有什么问题？

hive、hiveql

在hive sql下面执行后，在结果集中返回user_id:821044249473 select distinct(t1.user_id) from b2c_d.A t1 inner join b2c_d.B t2 on t1.user_id = t2.user_id inner join b2cdc.C t3 on t1.user_id = t3.base_uid where t1.active_rate > 0.9 and t1.micloud_usage > 0.9 and t1.user_level > 5 and t3.order_accessory_amou

浏览 1提问于2016-02-22得票数 0

1回答

使用Spark的Cassandra简单插入语句在org.apache.spark.sql.catalyst.parser.ParseException中失败

apache-spark、cassandra、apache-spark-sql

我试图用Spark将数据插入Cassandra表中，如下所示： String query = "CREATE TEMPORARY TABLE my_table USING org.apache.spark.sql.cassandra OPTIONS (table \"my_table\",keyspace \"my_keyspace\", pushdown \"true\")"; spark.sparkSession.sql(query); spark.sparkSe

浏览 5提问于2017-05-13得票数 0

回答已采纳