腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据智能实战

大数据与人工智能方向的论文复现、技术探索、工程实践的点滴记录和积累。

专栏作者

256

文章

391000

阅读量

56

订阅数

DataFrame registerTempTable(注册临时表)后Table Not Found问题的解决

hive python sql

将数据存成数据集的方式是实现数据各种操作非常有效的一种方式。也能够迅速实现数据的导入与导出。

2022-05-07

4970

Hive中文注释乱码问题的解决

utf8 缓存 hive sql 数据库

在HIVE中建表的时候，有时候难免要表中文注释，然而如果不经过配置，会导致desc某个表名的时候，直接以？的方式返回。

2022-05-07

4930

HIVE表中分区的删除

不过HIVE本身还提供一种机制，可以删除其中的分区。只要某一条记录在某个分区中，就可以实现用个“转弯”的方式来实现，即先删除分区，再手动去掉这条记录，再导入到分区中。

2022-05-07

3K0

hive中常量列的添加和查询

hive python 缓存

在正常应用场景中，常常会从HIVE中直接获取某个DATAFRAME，这个dataframe除了与数据表中某些字段的提取，还往往会涉及到一些常量列的添加，用以如区分数据等场景。

2022-05-07

1.1K0

Spark RDD(DataFrame) 写入到HIVE的代码实现

在实际工作中，经常会遇到这样的场景，想将计算得到的结果存储起来，而在Spark中，正常计算结果就是RDD。

2022-05-07

1.2K0

spark sql hive批量导入文本文件

hive 内容分发网络 CDN

在很多情况下，会需要将批量生成（如按天生成的记录）导入到HIVE中。针对这种应用场景，进行实验。

2022-05-07

5310

Spark实现HIVE统计结果导入到HBase操作

hive 编程算法 python hbase spark

由于HIVE更新的机制极其不适应SPARK环境，于是利用HBase来执行HIVE中某些统计结果的更新。首先要做的是实现Spark + Hive访问，得到RDD，再将这个RDD导入到HBase中操作。然而网上关于这一块目前资料还真很少。但是其原理总体上来说是非常简单的。步骤主要是两步： (1)开启hive连接器，实现spark + hive的访问，得到dataframe对象。

2022-05-07

5420

HIVE中数据更新(update)操作的实现

数据更新是一种常见的操作，然后数据仓库的概念一般要求的是数据是集成、稳定的。HIVE作为一种分布式环境下以HDFS为支撑的数据仓库，它同样更多的要求数据是不可变的。然而现实很多任务中，往往需要对数据进行更新操作，经查，Hive自0.11版本之后就提供了更新操作。于是想着试验一下，看看HIVE更新的操作和性能。

2022-05-07

14.8K0

Spark Hive在Eclipse代码中直接编译问题

html hadoop hive 嵌入式

利用Eclipse进行Spark开发过程中，特别是针对Hive开发时，经常会碰到这样一个问题，就是无法找到metastore。而一旦找不到的时候，hive会自动创建一个临时的本地的metastore，其提示INFO信息如下：

2022-05-07

4410

Hive timestamp与date互转的实验

unix hive python

将date存成timestamp有个比较好的好处，是比较的效率肯定会高很多，而且也是目前HIVE能够支持的方式。

2022-05-07

3100

从CSV文件导入Hive出现中文乱码问题解决

hive 文件存储 hadoop 大数据

关于HIVE中文乱码问题的解决办法，网上有很多帖子，然而很多都是基于LINUX终端显示字符的修改，其实上对于一些条件下的HIVE中文乱码问题是无法解决的，如从CSV文件导入到HIVE中出现的中文乱码问题。

2022-05-07

1.1K0

spark sql 无法访问 hive metastore问题解决

java html hive spark tcp/ip

Spark SQL on Hive是Shark的一个分支，是HIVE执行分析引擎的一个重要利器。在Spark 1.5.1的时候，可以非常简单地在spark shell中进行Hive的访问，然而到了Spark 1.5.2时，发现进入Spark Shell的时候，总是出现报错，其原因总是无法访问hive的metastore,从而无法进行各种操作，相当的烦人的。看了说明，说是要配置hive thrift服务，然而总是报各种失败! 困扰了很多天，终于搞定了。于是在这边将过程写下来。

2022-05-07

8930

从Oracle批量导出CSV导入到HIVE中(含去掉引号)

文件存储 oracle 存储 hive 大数据

以往很多系统经常用的是oracle数据库，在大数据环境下，许多应用都是去IOE的，那么其中老旧数据的迁移或者测试就是其中一块。

2022-05-07

1.2K0

Hive V1.2.1源码的解译

hive hadoop java spark scala

在利用spark sql on hive的过程中，访问Mysql总是报错，其报错的日志总是显示：

2022-05-07

2390

Spark1.5.1源码(Scala 2.11.7)的编译步骤

打包 spark hive scala

在编写spark程序的过程中，如果以master=local的方式是可以正常搞定的，然而如果将master设置为spark集群的方式则总是报各种错，通过源码查看，主要是AKKA通信与序列化之间的问题，而其核心原因是scala版本不匹配的问题。默认从apache官网下载的BIN包只支持2.10的，而2.11版本的还需要自己搞定。

2022-05-07

3110

太多的.hive-stagingxxx文件的处理

跑一段时间的HIVE程序之后，偶尔打开对应的HDFS文件夹，才发现在其目录下，产生了太多的.hive-staging_hive_date-time_ XXX文件。仔细一看，才发现几乎每个HIVE的查询语句都会产生这样的一个文件，这种文件会随着时间积累不断增加。这也是前段时间造成HDFS目录到项的原因之一。查了网上的相关说明，也没有比较好的说明，可能这是基于任何一个MAP　REDUCE程序都需要报告结果一样的原因。而这个文件本身是没有什么意义的。于是采取步骤如下： 1，在hive-site.xml中，

2018-01-09

1.6K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态