Hive SQL中条件概率的窗口函数乘法_SQL中的窗口函数_窗口函数和子查询在Hive中的使用 - 腾讯云开发者社区

sql、hadoop、hive、hiveql

窗口函数是在Hive 12.0中引入的，但是，我无法使用更新版本的hive。有没有可能用HiveQL重写/表达下面的SQL？ select userid, siteid, eventdate, count(*) over(partition by userid, siteid order by eventdate) as c, rank() over (partition by userid, siteid order by eventdate) as rank from views 我当前版本的配置单元(10.0)不支持窗口函数，也不支持from子句中的子查询 select

浏览 4提问于2014-03-16得票数 0

1回答

C#中朴素贝叶斯概率的计算

c#、math、machine-learning、probability

我正在为C#开发一个朴素的贝叶斯解决方案，其中有两种可能的结果。我找到了一个小的示例代码，但我想知道是否有人能够解释最后一行。分析器正在查找一个单词属于两个类别中的一个类别的概率 cat1count是在类别1中找到的单词的数量(如果该单词在类别1中被发现2次，则为2/类别1中的总单词) cat1total =类别1中的总字数根据我的理解，bw是单词属于类别1的概率，gw是单词属于类别2的概率 pw和fw是我开始有点迷失的地方。完整的源代码可以在上找到。 float bw = cat1count / cat1total; float gw = cat2coun

浏览 0提问于2013-07-19得票数 2

回答已采纳

2回答

无法在HiveQL中解析分区依据

sql、hive、subquery、hiveql、window-functions

? 我的版本似乎已经过时了，不支持ROW_NUMBER()、PARTITION BY和OVER()。有没有SQL替代方法呢？编辑:我使用的是Hive 0.10。窗口功能仅在0.11及更高版本中可用，source。

浏览 13提问于2020-11-02得票数 0

1回答

列不是org.apache.spark.sql.DataFrame的成员

scala、apache-spark、dataframe、hivecontext

我是spark的新手，我正在尝试连接来自Scala代码的hive中的两个表： import org.apache.spark.sql._ import sqlContext.implicits._ val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc) val csp = hiveContext.sql("select * from csp") val ref = hiveContext.sql("select * from ref_file") val csp_ref_join =

浏览 78提问于2018-06-02得票数 0

回答已采纳

1回答

从Windows 10在Pyspark中创建Dataframe问题

dataframe、pyspark、hadoop-2.7.2

我无法从pyspark窗口执行以下命令 schemaPeople = spark.createDataFrame(people) 我已将HADOOP_HOME设置为winutils，并向C:/tmp/hive提供了77权限不过，我还是得到了下面的错误- Py4JJavaError: An error occurred while calling o23.applySchemaToPythonRDD. : java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop

浏览 3提问于2017-04-13得票数 0

1回答

数据序列的输出预测

predictive-modeling、algorithms

考虑到许多不同语言都可以使用机器学习库，在不需要详细了解它们的应用程序或工作原理或datascience的情况下，使用算法是可能的。我试图从以前的输入值窗口中找到一组适合于序列预测的算法，然后我可以将这些算法应用到这样的库中，例如C#协议，但是失败了。我拥有的每一个观察都是一个2-二分位数据的数组，格式如下：{MODE1 1/2/3，int 1-98}。也就是说，多个输入产生多个输出。我想检查来自t-1或t-x的前一组值，其中x可以是前一值集的可变数量。因此，我想问一下，哪些算法擅长于从序列数据窗口进行预测，它们的优缺点是什么。

浏览 0提问于2016-03-04得票数 3

1回答

PySpark-如何使用Pyspark计算每个字段的最小、最大值？

python-3.x、apache-spark、pyspark、apache-spark-sql、pyspark-sql

我正在尝试找出sql语句产生的每个字段的最小值和最大值，并将其写入csv文件。我试着在下面的时尚中得到结果。你能帮帮我吗。我已经用python编写了代码，但现在正在尝试将其转换为pyspark，以便直接在hadoop集群中运行。 from pyspark.sql.functions import max, min, mean, stddev from pyspark import SparkContext sc =SparkContext() from pyspark.sql import HiveContext hive_context = HiveContext(sc) #ban

浏览 2提问于2018-11-20得票数 1

2回答

从火花执行蜂巢查询

hive、apache-spark

我正试图在火花壳中执行这段代码： val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("show tables") 执行第二行之后，我将得到一个异常： org.apache.hadoop.hive.ql.Driver.getResults(Ljava/util/ArrayList；：java.lang.NoSuchMethodError在org.apache.spark.sql.hive.HiveContext.runHive(HiveContext.scala:305)，

浏览 3提问于2015-01-07得票数 0

回答已采纳

4回答

hive、pig、map-reduce用例之间的区别

hadoop、mapreduce、hive、apache-pig

map-reduce、hive、pig之间的区别 pig :它是一种数据流语言，它可以处理任何数据，基本上用于将半结构化、非结构化数据转换为结构化数据，以便可以使用窗口函数等在hive高级分析中使用。 Hive :处理结构化数据，并提供sql类型的查询语言。我知道在后端，猪和蜂窝都使用map -reduces。我知道map-reduce对于程序员、hive或pig for sql来说都是很好的工具我只想知道是否有任何特定的用例，我们去蜂巢，猪和地图-缩减基本上，我们决定我们必须在这里使用猪蜂巢，或者我们必须使用地图-reduce。

浏览 0提问于2014-10-29得票数 0

1回答

SQL配置单元- MD5哈希

sql、hash、hive、hiveql、obfuscation

使用SQL Hive函数md5()生成32个字符的MD5散列。在Hive中有没有一种方法可以在不影响输出完整性的情况下减少字符限制？不幸的是，我对不能更改的某些列有限制。我正在尝试屏蔽一些数据字段，并认为使用MD5将是最好的选择，但我对其他方法持开放态度。我知道可以使用rand()函数，但希望避免这种情况。

浏览 42提问于2021-02-24得票数 2

回答已采纳

2回答

在配置单元SQL中，三个非NULL派生列的相乘将产生NULL作为输出。

hive、hiveql

当我在HIVE SQL中应用一个复杂的公式时，我遇到了需要将三个不同的派生值相乘的情况(使用其他一些列)。这三个非空列的乘法将返回NULL作为输出。需要帮助。从中派生值的基列的数据类型是DECIMAL(18,6) 提前感谢

浏览 13提问于2016-09-12得票数 1

1回答

火花中的自定义模式-火花1.4.1中的csv抛出错误

apache-spark、spark-dataframe、spark-csv

我试图使用火花-csv包处理CSV文件，在星火1.4.1的火花壳. scala> import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql.hive.HiveContext

浏览 1提问于2015-12-21得票数 1

回答已采纳

1回答

在spark中使用HiveContext引发异常

apache-spark-sql、hivecontext、spark-hive

我必须使用HiveContext而不是SQLContext，因为我使用了一些只能通过HiveContext才能使用的窗口函数。我在我的pom.xml中添加了以下几行： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.10</artifactId> <version>1.6.0</version> </dependency> 而我运行代码的机器上的spark版本也是1.6.0，但是，当

浏览 3提问于2017-03-07得票数 2

回答已采纳

1回答

org.apache.hadoop.hive.ql.metadata.HiveException:错误:无法实例化org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

hive、apache-spark-sql、spark-dataframe、hiveql

我已经安装了星火窗口machine(standalone)，并试图连接HDP 2.6蜂巢转移，这是可用的VM使用火花应用程序。我使用NAT作为HDP 2.6 VM的网络适配器。当我试图将蜂窝转移(HDP 2.6VM)与Spark应用程序 (Local on Windows )连接时，我得到了下面的错误消息。 17/08/12 17:00:16 INFO metastore: Waiting 1 seconds before next connection attempt. 17/08/12 17:00:17 INFO metastore: Trying to connect to metas

浏览 1提问于2017-08-12得票数 0

2回答

使用对分区表的窗口函数，Tez下推谓词上的单元格不能在视图中工作

hadoop、hive、hortonworks-data-platform、apache-tez

在Tez上使用Hive对此视图运行此查询将导致完整的表扫描，即使在regionid和id上有分区。Cloudera中的查询需要0.6s才能完成，并使用Hortonworks数据平台，而Hive在Tez上则需要800 s。我得出的结论是，在Hive中，使用一个窗口函数可以防止谓词向下推到内部选择，从而导致整个表扫描。 CREATE VIEW latestposition AS WITH t1 AS ( SELECT *, ROW_NUMBER() OVER ( PARTITION BY regionid, id, deviceid order by ts desc) AS rownos FR

浏览 3提问于2016-01-05得票数 1

回答已采纳

2回答

无法从HIVE运行HPL/SQL查询

hive、hive-hplsql

我试着从Hive运行“dbms_output.put_line(‘这是HPL/Sql’)”，它在下面给出了异常。 NoViableAltException(26@[]) at org.apache.hadoop.hive.ql.parse.HiveParser.statement(HiveParser.java:1140) at org.apache.hadoop.hive.ql.parse.ParseDriver.parse(ParseDriver.java:204) at org.apache.hadoop.hive.ql.parse.ParseDriver.par

浏览 8提问于2016-11-07得票数 0

2回答

星火SQL本机语法和Hive QL语法之间有什么区别？

apache-spark、hive、apache-spark-sql、hiveql

在Spark正式文档中，提到了两种类型的SQL语法: Spark原生SQL语法和Hive QL语法。我找不到他们差别的详细解释。我被以下问题弄糊涂了：星火本机SQL语法是Hive QL的一个子集吗？我这么问是因为他们在一些文章里这样说。根据星火官方页面中的解释，Spark似乎不支持Hive的所有功能。如果问题1是肯定的，为什么我可以在Spark中运行"join A rlike B“，而不能在Hive中运行？星火如何将SQL语句视为星火本机SQL或Hive QL？当我们在星火会话初始化期间使用enableHiveSupport时，这是否意味着Spark将将所有给定

浏览 4提问于2021-01-30得票数 1

回答已采纳

3回答

我如何使用“哪里不存在”SQL条件中的火花？

python、hive、pyspark、airflow、pyspark-sql

我有一个关于Hive的表，我试图在那个表中插入数据。我从SQL获取数据，但我不想插入id，它已经存在于Hive表中。我试图使用相同的条件，就像不存在的地方。我用的是PySpark。

浏览 0提问于2019-02-06得票数 2

1回答

将SQL查询转换为Hive查询

sql、database、hadoop、hive

我在将SQL查询转换为Hive查询时遇到了一些问题。关系模式： Suppliers(sid, sname, address) Parts(pid, pname, color) Catalog(sid, pid, cost) 查询1:查找有供应商的零件的名称。我尝试过查询1的查询转换之一，如果有人能告诉我它是正确的还是不正确的，我认为这是正确的，我真的很感激。根据我查到的蜂巢信息，它们对我来说似乎是一样的。查询1: SQL SELECT pname FROM Parts, Catalog WHERE Parts.pid = Catalog.pid 查询1:转换为Hive SELECT pna

浏览 2提问于2015-03-07得票数 1

2回答

javax.security.sasl.SaslException: GSS初始化失败[由GSSException引起:未提供有效凭据

hive、hiveql、apache-spark-sql

当我尝试使用Spark SQL HiveContext连接到hive metastore时，我收到此错误。我在我的桌面上使用spark-submit命令在独立的集群上运行，而不是从hadoop集群。 <property> <name>hive.metastore.sasl.enabled</name> <value>true</value> </property> <property> <name>hive.server2.authentication</n

浏览 1提问于2015-08-25得票数 3

2回答

OOZIE蜂巢作用中的参数类型不匹配

hive、oozie

我在oozie中运行hive操作，其中hive.sql脚本有下面提到的蜂巢查询。议程：目标是将此查询的结果插入到hive集成的hbase表中，其中的主要目标是通过transaction_dt列检索最新的时间戳。但是，当我在OOZIE中通过hive操作运行相同的查询时，它将失败错误信息： org.apache.hadoop.hive.ql.parse.SemanticException:第0行：-1参数类型不匹配的'rows'：EQUAL的第一个参数被期望为基本类型，但是list被找到这里似乎不需要UDF定义的变量，但是需要原始类型。当我在

浏览 0提问于2019-06-07得票数 1

2回答

查询spark 2.2.0中的配置单元表

apache-spark、hadoop、hive、apache-spark-sql

我有一个avro文件格式的hive表(比如table1)，其中有1900列。当我在hive中查询表时-我能够获取数据，但是当我在spark sql中查询同一个表时，我得到了metastore客户端丢失的连接。正在尝试重新连接我还查询了另一个avro文件格式的hive表(比如table2)，它有130列，正在获取hive和spark中的数据。我观察到的是，我可以在table2的hdfs位置看到数据，但在table1 hdfs位置看不到任何数据(但当我仅在hive中查询时，它正在搜索数据)。

浏览 3提问于2019-06-29得票数 2

1回答

MATLAB:单变量高斯朴素贝叶斯

matlab、machine-learning、naivebayes

我正在尝试使用UCI机器学习团队发布的数据集来实现朴素贝叶斯分类器。我刚接触机器学习，并试图理解用于解决与我的工作相关的问题的技术，所以我认为最好先让理论得到理解。我正在使用pima数据集()，我的目标是为K类问题构建朴素贝叶斯单变量高斯分类器(数据仅用于K=2)。我已经做了拆分数据，并计算每个类的平均值，标准差，每个类的先验，但在这之后，我有点卡住了，因为我不确定在这之后我应该做什么和如何做。我有种感觉我应该计算后验概率，这是我的代码，我使用百分比作为向量，因为我希望看到当我将训练数据大小从80:20拆分增加时的行为。基本上，如果你通过10 20 30 40，它将从80:20分割中提取百

浏览 2提问于2012-10-04得票数 1

16回答

类似SQL的配置单元插入查询

sql、hadoop、hive、hiveql

我是hive的新手，想知道是否有像我们在SQL中那样插入数据到Hive表中的方法。我想将我的数据插入到配置单元中，如下所示 INSERT INTO tablename VALUES (value1,value2..) 我读到您可以将数据从文件加载到hive表，或者您可以将数据从一个表导入到hive表，但是有没有像SQL中那样追加数据的方法？

浏览 3提问于2013-07-02得票数 65

回答已采纳

2回答

贝叶斯分类器的实现细节

algorithm、classification、bayesian

我实现了一个简单的贝叶斯分类器，但在处理大量数据时遇到了一些溢出问题。我尝试了一种策略，以保持数字小，但仍然准确，就是不断减少分子和分母与最大公约数的方程式的每一部分。然而，只有当它们有一个公约数时，这才有效。请注意，问题是双向的，当我在大多数计算中将分母和分子分开时，我正在与整数溢出作斗争，当我使用双精度算术动态地进行大多数计算时，我遇到了非常小的双精度值所具有的各种问题/限制(如IEEE 754所定义)。我相信在座的一些人之前已经实现了这个算法，你们是如何处理这些问题的呢？我不喜欢引入任意的精度类型，因为它们的成本太高，而且我相信存在一个不需要它们的解决方案。谢谢。

浏览 0提问于2011-11-04得票数 0

回答已采纳

3回答

配置单元中SQL Server UPDATE命令的最佳等价物

sql、sql-server、hadoop、hive

与Hive中的SQL Server UPDATE SET命令相当的最佳(成本较低)命令是什么例如，考虑我想转换以下查询的情况： UPDATE TABLE employee SET visaEligibility = 'YES' WHERE experienceMonths > 36 转换为等效的Hive查询。

浏览 0提问于2013-01-10得票数 1

回答已采纳

1回答

如何解析SparkR中的“sql(SparkR.)”警告

r、apache-spark、sparkr

我正在使用SparkR构建一些旧代码的新版本。在这样的街区上 hiveContext <- sparkRHive.init(sc) hive_db = 'our_database' db <- sql(hiveContext, paste0("use ", hive_db)) 我被告知'sparkRHive.init' is deprecated. Use 'sparkR.session' instead.所以，好吧，好吧，我现在有： hiveContext <- sparkR.session(sc) hive

浏览 1提问于2017-09-26得票数 2

回答已采纳

2回答

错误信息" error : FUNCTION 'NUCLEUS_ASCII‘已经存在“(state=X0Y68，code=30000)的原因是什么？

cmd、hive、cygwin、derby、hive-metastore

输出以下错误信息：错误:函数'NUCLEUS_ASCII‘已经存在。(state=X0Y68，code=30000) org.apache.hadoop.hive.metastore.HiveMetaException:架构初始化失败！Metastore状态会不一致!！根本原因: java.io.IOException :模式脚本失败，错误代码2 使用--详细的堆栈跟踪。 ** schemaTool失败* Hive和Hadoop守护进程运行良好。我通过Cygwin在Metastore服务之后运行蜂巢服务。我删除了所有的Metastore db目录。然后，在运行下面的命令之后

浏览 6提问于2021-07-16得票数 1

1回答

蜂窝中的伪随机函数？

random、hash、hive

我正在尝试在Hive中获得一个确定性的伪随机函数。我试过checksum，但显然那只是SQL，不是Hive。我做到了 select hash(1)给了我1 select rand(1), rand(2), rand(3)给了我0.730878191 0.731146936 0.731057369 Hive中是否有加密安全的哈希？为什么rand不是随机的？

浏览 3提问于2018-10-06得票数 0

1回答

如何将Netezza中的ltrim(s，t)、rtrim(s，t)转换为Hive SQL？

sql、hive、trim、netezza

有人能告诉我，在Hive SQL中，对于ltrim(s，t)和rtrim(s，t)，等效的Netezza SQL函数是什么？我真的很感激！我知道在Netezza SQL中，选择ltrim('abcd'，'a')； “‘bcd” 选择rtrim('abcd'，'d')； “‘abc” 但那又如何选择ltrim('aaaabaabcd'，'a')；选择rtrim('abcdbddddd'，'d');？在Hive中，ltrim()和rtrim()的

浏览 2提问于2019-10-29得票数 1

1回答

Python:多处理蜂巢查询

python、sql、hive、python-multiprocessing

我试图通过从map传递表名来执行多个Hive查询，即 from pyhive import hive from multiprocessing import Pool from functools import partial import pandas as pd conn = hive.connect('hive_connection',99999, username='user', password='password',

浏览 0提问于2018-09-28得票数 1

回答已采纳

2回答

HDP 3.0不能保存表格以保存细胞亚稳态

apache-spark、hive、hive-metastore、apache-spark-2.3

我不能再用亚稳态保存一个表格来保存数据库了。我使用spark.sql看到了spark中的表，但在hive数据库中看不到相同的表。我试过这个，但它并不是为了储存蜂巢而储存的。我如何配置蜂巢亚稳态？火花版本为2.3.1。如果你想要更多的细节，请评论。 %spark import org.apache.spark.sql.SparkSession val spark = (SparkSession .builder .appName("interfacing spark sql to hive metastore without configuration

浏览 2提问于2018-11-15得票数 1

回答已采纳

1回答

如何将星火与HiveContext结合使用

apache-spark、apache-spark-sql、sbt、sbt-assembly

我刚开始使用spark.I中的HiveContext来访问窗口functions.But。 import org.apache.spark.sql.hive.HiveContext 我得到以下错误：错误:对象单元不是包org.apache.spark.sql的成员我发现了需要在build.sbt文件中包含以下依赖项的解决方案。 libraryDependencies += "org.apache.spark" %% "spark-hive" % "1.5.2 但我不知道，我应该在哪里找到这个build.sbt文件， /home/clouder

浏览 3提问于2016-03-23得票数 0

1回答

scala程序搜索最近的值

scala、apache-spark、bigdata

我想基于下面的hive创建一个df： WITH FILTERED_table1 AS (select * , row_number() over (partition by key_timestamp order by datime DESC) rn FROM table1) scala function: import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.functions._ import org.apache.spark.sql.SparkSession val table1 = Wi

浏览 0提问于2018-08-28得票数 0

回答已采纳

2回答

从今天起减去7天

sql、hive

我是hive和sql的新手。有没有办法在Hive中获取当前日期-7，即7天前的日期。我的表中的日期格式为20150910。(yyyyMMdd)。我尝试了下面的查询，但它没有返回任何东西。 select * from gmr.tedf_cs_mrch_tran where cpd_dt = FROM_UNIXTIME( UNIX_TIMESTAMP( DATE_SUB( FROM_UNIXTIME(UNIX_TIMESTAMP(),'yyyy-MM-dd') , 7

浏览 0提问于2015-09-10得票数 0

1回答

与蜂巢数据类型有关的问题

sql、types、hive、hiveql、biginteger

我们有3列来自源，colA是3位，colB是5位，ColC是5位。我们需要根据上面的3列创建13位唯一的id Query used - select colA*1000000000000 + colC*100000 + colC Example - hive> select 123*1000000000000 + 12345*100000 + 12345; OK 123001234512345 -- Not Expected Time taken: 0.091 seconds, Fetched: 1 row(s) 进一步检查时，下面的单元查询不能给出正确的结果。 hive> !

浏览 2提问于2020-02-10得票数 0

回答已采纳

2回答

了解如何在星火中执行Hive SQL

apache-spark、hive、mapreduce、pyspark

我是新来的火花和蜂巢。我需要了解当蜂箱表在星火中被查询时后面发生了什么。我正在使用PySpark 例如： warehouse_location = '\user\hive\warehouse' from pyspark.sql import SparkSession spark =SparkSession.builder.appName("Pyspark").config("spark.sql.warehouse.dir", warehouse_location).enableHiveSupport().getOrCreate() DF = s

浏览 0提问于2018-05-07得票数 0

回答已采纳

1回答

与Mahout的集成蜂巢供推荐

java、hadoop、hive、mahout、mahout-recommender

我想在蜂箱中使用mahout，我将从hive中获取数据，并使用数据模型来填充数据，并使用mahout作为推荐。这有可能吗。因为我见过mahout只为文件工作。( 1)如何使用蜂窝表将数据加载到mahout中？( 2)是否有其他方法可以将mahout推荐应用于hive或其他？在这里，我有一个进程jdbc结果，我想在mahout中填充到DataModel。如何居住？我希望使用数据库结果，而不是从文件中读取mahout推荐。例如：蜂巢： import java.sql.SQLException; import java.sql.Connection; import ja

浏览 3提问于2014-02-26得票数 0

回答已采纳

1回答

配置单元jdbc -无法从我自己的表中选择

java、hadoop、jdbc、hive

我以pawel用户身份登录。在hive shell中，我在数据库中创建了一个数据库pawel_db和一个test_table，并用一行数据填充它。这是ls向我展示的： [pawel@sandbox ~]$ hadoop fs -ls /apps/hive/warehouse Found 6 items drwxr-xr-x - pawel hdfs 0 2014-07-14 07:29 /apps/hive/warehouse/pawel_db.db [...] 在shell中： [pawel@sandbox ~]$ hive -e "use pawel_db;

浏览 3提问于2014-07-14得票数 3

1回答

获取变量中的数据列，如何？

scala、apache-spark、dataframe、hive、apache-spark-sql

环境: Spark 1.6，Scala 我正试图从dataframe中获取一个日期时间字段，以便在SparkSQL中进行比较。 val las_max_date_from_hive= hivecontext.sql("select min(SampleTime) max_SampleTime from mytable") DF2 = hivecontext.sql ("select * from table2 where sampleDate >" + las_max_date_from_hive) // error here as las_max_d

浏览 0提问于2016-12-29得票数 0

回答已采纳

1回答

为什么即使通过shell脚本传递参数，ArgumentParser对象也不提供任何值

python、sh、argparse

我在shell脚本中调用python脚本，并将参数传递给这个python作业。参数将从配置文件中加载。在shell脚本中进行测试时，调用的变量将正确回显。在参数解析器中，HIVE_标记的参数都被标记为None。 Shell脚本 set -e if \[ ! -z "$1" \] then config_file="$1" else config_file="./env.sh" fi ${venv_path} ${mpw_path}/src/main_sample.py \ \--MPW_BASE "${mpw_base}" -

浏览 7提问于2022-11-21得票数 0

2回答

配置单元:连接两个表时，检查表1中的字符串是否出现在表2中的字符串列表中

sql、string、list、join、hive

我正在尝试连接一个字符串(表1中的列)是否出现在Hive QL中的字符串列表(表2中的列)中。有人能帮我学一下语法吗？ SELECT A.id FROM tab1 A inner join tab2 B ON ( (array_contains(B.purchase_items, A.item_id) = true ) ) 上述SQL不起作用。

浏览 2提问于2013-11-02得票数 0

1回答

在带有联接条件的单元格中执行删除的解决方法

hadoop、hive、hiveql

因此，我试图将SQL查询转换为Hive查询。我使用的是不支持删除的.12版本。下面是SQL查询： Delete from t1 c where exists(select 1 from t2 a where a.emplid=c.employee_id and a.project_status='test') 现在，我尝试在上面的查询中使用NOT，但是由于某些原因，我们不能在查询中使用NOT。下面是我编写的Hive查询，但我不确定，因为它没有给出正确的结果。我对蜂巢很陌生。有人能帮上忙吗。 INSERT Overwrite table t1 select * from

浏览 0提问于2018-03-09得票数 2

回答已采纳

1回答

HIVE/Impala查询:计数满足特定条件的行之间的行数

sql、database、hiveql、impala

我需要计算满足其他条件的其他行定义的间隔中包含的特定条件的行数。示例:值为'Other_condition‘=b的“引用”之间的行数N为N=1，值为2和5的“引用”之间的行数N满足条件'Other_condition’=b为N=2等。 Date Reference Other_condition 20171111 1 a 20171112 2 a 20171113 3 b 20171114

浏览 1提问于2017-11-13得票数 0

回答已采纳

1回答

无法使用jdbcStorageHandler创建Hive外部表

hadoop、hive

我正在Amazone EMR中运行一个小型集群，以便使用Apache 2.3.5。我的理解是，Apache可以从远程数据库导入数据并让集群运行查询。我遵循Apache文档()中提供的一个示例，并创建了以下代码： CREATE EXTERNAL TABLE hive_table ( col1 int, col2 string, col3 date ) STORED BY 'org.apache.hive.storage.jdbc.JdbcStorageHandler' TBLPROPERTIES ( 'hive.sql.database.type

浏览 6提问于2019-09-25得票数 2

2回答

配置单元中的空间函数

apache-spark、hive、apache-spark-sql、geospatial、spatial

我们正在从传统的RDMS技术迁移到HIVE的过程中，在这个过程中，我们几乎没有关于HIVE空间功能的问题。1)从sql server操作到配置单元的操作dbo.fHTMToString空间的映射2)从配置单元中的sql server操作的操作dbo.FHtmToLatLon空间的映射

浏览 6提问于2017-01-27得票数 1

5回答

Scala如何在sqlContext查询中处理isnull或ifnull

sql、scala、apache-spark、isnull

我有两个数据文件如下： course.txt id,course 1,Hadoop 2,Spark 3,HBase 5,Impala Fee.txt id,amount 2,3900 3,4200 4,2900 我需要列出所有的课程信息和他们的费用： sqlContext.sql("select c.id, c.course, f.amount from course c left outer join fee f on f.id = c.id").show +---+------+------+ | id|course|amount| +---+------+---

浏览 0提问于2018-03-10得票数 3

回答已采纳

1回答

spark中SQL解析函数的使用

hadoop、hiveql、apache-spark-sql

我有下面这样的SQL SELECT LIMIT, COL1, COL2, COL3 FROM (SELECT ROW_NUMBER () OVER (ORDER BY COL5 DESC) AS LIMIT, FROM_UNIXTIME(COL_DATETIME,'dd-MM-yyyy HH24:mi:ss') COL1, CASE WHEN COL6 IN ('A', 'B') THEN A_NUMBER ELSE B_NUMBER END AS CO

浏览 1提问于2015-05-20得票数 1

1回答

Smark2.0-- Dataset<Row>用Java写Parquet

apache-spark、spark-dataframe

我想在Java中将数据集写入Parquet文件，我使用 Dataset<Row> ds = getDataFrame(); ds.write().parquet("data.parquet"); 此代码由火花提交命令运行，如下所示 sudo spark-submit --class getdata --master yarn --num-executors 4 --executor-cores 1 --jars guava-14.0.1.jar,hadoop-common-2.7.3.jar,hbase-client-1.3.0.jar,hbase-common-1

浏览 0提问于2017-06-15得票数 0

4回答

如何在HiveContext中设置hive.metastore.warehouse.dir？

apache-spark、apache-spark-sql、spark-hive

我正在尝试编写一个依赖于DataFrame.saveAsTable()的单元测试用例(因为它是由文件系统支持的)。我将配置单元仓库参数指向本地磁盘位置： sql.sql(s"SET hive.metastore.warehouse.dir=file:///home/myusername/hive/warehouse") 默认情况下，应启用metastore的嵌入式模式，因此不需要外部数据库。但是HiveContext似乎忽略了这个配置:因为我在调用saveAsTable()时仍然会遇到这个错误： MetaException(message:file:/user/hive/wa

浏览 4提问于2015-05-29得票数 8