hive去重 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

跨多个分区的配置单元表重复数据消除

、、、

我正在尝试对一个可能在多个分区中有重复项的表进行重复数据删除。例如 id device_id os country unix_time app_id dt1 2 3a USA 4 5 2019-12-221 2 3a USA 4

浏览 21提问于2019-12-23得票数 1

回答已采纳

1回答

使用HiveQL进行重复数据删除

、、

我有一个包含字段'a'(int)、'b'(string)、'c'(bigint)、'd'(bigint)和'e'(string)的hive表。c d e1 e 14 22 m2 g 16 24 o它将在密钥'a‘上被去重

浏览 7提问于2013-04-16得票数 0

1回答

从HDinsight集群访问蜂巢表

、、、、

当我去查询蜂箱时，它会显示所有的数据库，但是当我从spark查询时，它只显示默认的数据库。还有别的办法吗？码 .builder \ .appName("Python Spark SQL Hive integration example") \.config("hive.metastore.uris&

浏览 6提问于2021-08-20得票数 1

1回答

Hive中用户特定的默认数据库

、

我的用户主要使用蜂蜡，这是Hue内的Hive查询编辑器应用程序。当用户登录到Hue并打开蜂蜡时，将预选默认的Hive数据库" default“。或者有一个Hive启动脚本的概念，我可以在其中运行use DATABASE命令？

浏览 0提问于2017-10-12得票数 0

1回答

在Windows 8.1上安装配置单元时出现错误"Missing Hive Execution Jar: C:\ Hive \lib/hive-exec-*.jar“

、

我正在按照这些在Windows8.1上安装配置单元我已经向HIVE_HOME = c:\hive添加了一个新的System Variable集我已经让Hadoop 2.7.5运行得很好了。当我尝试在命令行运行hive时，我得到以下错误： "Missing Hive Execution Jar: C:\hive\lib/hive</

浏览 24提问于2016-09-28得票数 0

回答已采纳

3回答

我有一个数据，其中一个人(名字)在一个eggphase类别中出现了多次。我希望每个人只有一个样本，但我不想只保留R找到的第一个样本。我想保留该组在所有其他类别中出现最多的那个类别。希望我的例子能让你明白这一点。myDF <- read.table(text="Tissue Food Eggphase Name Group wb fl after Kia c wb fl before Lucy c wb fl

浏览 3提问于2017-11-13得票数 0

2回答

Kafka去重消息

我们有一个内存不足的错误，导致数以亿计的重复消息被添加到主题中。有没有办法暂停所有服务，修复主题并删除重复的内容？卡夫卡新手来了..。

浏览 3提问于2021-04-18得票数 0

1回答

返回数组和结构的单元语法

、

我试过：它起作用了，但也带来了一些错误：错误org.apache.hadoop.hive.ql.udf.generic.GenericUDFArray：无法计算optimizer.ConstantPropagateProcFactory返回值不可重定位。错误org.apache.hadoop.hive.ql.udf.generic.GenericUDFStruct@1d04de1f.：无法计算optimizer.ConstantPropagateProcFa

浏览 1提问于2016-03-30得票数 0

回答已采纳

2回答

Spark安装: spark-2.0.0-bin-hadoop2.7/lib/spark-assembly-.jar:没有这样的文件或目录*

、

我想运行在Hadoop2.7和hive 1.2.1上(mysql中的metastore)。cannot access /opt/spark-2.0.0-bin-hadoop2.7/lib

浏览 5提问于2016-09-01得票数 3

1回答

Ng-grid去重

、、

在我的Ng-grid单元格中，我已经应用了这个单元格模板。我正在获取数据，但带有重复的regionName。 ng-options="l.RegionID as l.RegionName for l in regionActivities" ng-class="'colt' + $index" ng-model="COL_FIELD" ng-input='COL_FIELD' ng-change="activityRegionChange(r

浏览 1提问于2015-01-22得票数 0

1回答

Git重基工作流问题

、、

有许多关于git重基工作流的帖子/问题/博客。: sql/core/src/test/scala/org/apache/spark/sql/SQLQuerySuite.scala # both modified: sql/hive/src/main/scala/org/apache/spark/sql/hive/

浏览 3提问于2014-08-04得票数 0

回答已采纳

4回答

SQL查询去重帮助

、、

我需要从下表中删除半重复记录1 1 503 1 905 7 11对于存在的任何重复PID，我希望删除最低得分记录。在上面的示例中，ID 1将被删除。我试图想出一种不使用循环的方法，但我真的很挣扎。谢谢

浏览 2提问于2009-10-12得票数 1

回答已采纳

7回答

php多维数组去重

、、

不确定这个问题是否是需要删除的副本，但我在其他地方找不到答案，所以我会试着问一下。Array[0] => Array [0] => dave [2] => c@b.c ( [1] => jones ( [0

浏览 3提问于2009-12-08得票数 20

回答已采纳

1回答

基于多列去重

、

我有一个由(col1，col2，col3)组成的多字段主键。但是，在添加主键之前，已经添加了很多重复项，需要删除。Col1 Col2 Col3 2 3 3 2 3 4 2 4 null Col1 Col2 Col3 2 3 3 2 4 null

浏览 2提问于2019-05-09得票数 0

2回答

lucene索引匹配

、

我正在尝试使用Lucene进行去重或去重匹配。

浏览 0提问于2012-06-22得票数 0

1回答

气流HiveCliHook连接到远程蜂巢集群？

、

我跑到下面去测试它：from airflow.models import Connectionhive_c

浏览 1提问于2018-11-28得票数 3

1回答

UDF函数不能使用java JDBC工作

、、、、

我正在创建永久函数-创建函数add AS 'brickhouse.udf.collect.CombineUDF‘ 错误为org.apache.hive.service.cli.HiveSQLException

浏览 2提问于2017-11-07得票数 0

3回答

使用星火应用程序内置Serde创建的查询蜂巢表

、、

我使用Hortonwork的HDP 2.2部署了hadoop集群(Spark1.2.1和Hive 0.14) at org.apache.hadoop.hive.ql.metadata.Table.checkValidity(Table.java:

浏览 10提问于2015-07-02得票数 2

回答已采纳

4回答

hive、pig、map-reduce用例之间的区别

、、、

map-reduce、hive、pig之间的区别我知道在后端，猪和蜂窝都使用map -reduces。我知道map-reduce对于程序员、hive或pig for sql来说都是很好的工具基本上，我们决定我们必须在这里使用猪蜂巢，或者我

浏览 0提问于2014-10-29得票数 0

4回答

去重和求和数量

、、

var name = new Array();name[0]="Peter";name[1]="John";name[2]="John";name[3]="Peter";name[4]="Mary";我有类似上面的东

浏览 6提问于2012-11-13得票数 2

回答已采纳

点击加载更多

跨多个分区的配置单元表重复数据消除

使用HiveQL进行重复数据删除

从HDinsight集群访问蜂巢表

Hive中用户特定的默认数据库

在Windows 8.1上安装配置单元时出现错误"Missing Hive Execution Jar: C:\ Hive \lib/hive-exec-*.jar“

多条件去重

Kafka去重消息

返回数组和结构的单元语法

Spark安装: spark-2.0.0-bin-hadoop2.7/lib/spark-assembly-.jar:没有这样的文件或目录*

Ng-grid去重

Git重基工作流问题

SQL查询去重帮助

php多维数组去重

基于多列去重

lucene索引匹配

气流HiveCliHook连接到远程蜂巢集群？

UDF函数不能使用java JDBC工作

使用星火应用程序内置Serde创建的查询蜂巢表

hive、pig、map-reduce用例之间的区别

去重和求和数量

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐