首页
学习
活动
专区
工具
TVP
发布

大数据智能实战

大数据与人工智能方向的论文复现、技术探索、工程实践的点滴记录和积累。
专栏作者
256
文章
391000
阅读量
56
订阅数
DataFrame registerTempTable(注册临时表)后Table Not Found问题的解决
将数据存成数据集的方式是实现数据各种操作非常有效的一种方式。也能够迅速实现数据的导入与导出。
sparkexpert
2022-05-07
4970
Hive中文注释乱码问题的解决
在HIVE中建表的时候,有时候难免要表中文注释,然而如果不经过配置,会导致desc某个表名的时候,直接以?的方式返回。
sparkexpert
2022-05-07
4930
HIVE表中分区的删除
不过HIVE本身还提供一种机制,可以删除其中的分区。只要某一条记录在某个分区中,就可以实现用个“转弯”的方式来实现,即先删除分区,再手动去掉这条记录,再导入到分区中。
sparkexpert
2022-05-07
3K0
hive中常量列的添加和查询
在正常应用场景中,常常会从HIVE中直接获取某个DATAFRAME,这个dataframe除了与数据表中某些字段的提取,还往往会涉及到一些常量列的添加,用以如区分数据等场景。
sparkexpert
2022-05-07
1.1K0
Spark RDD(DataFrame) 写入到HIVE的代码实现
在实际工作中,经常会遇到这样的场景,想将计算得到的结果存储起来,而在Spark中,正常计算结果就是RDD。
sparkexpert
2022-05-07
1.2K0
spark sql hive批量导入文本文件
在很多情况下,会需要将批量生成(如按天生成的记录)导入到HIVE中。针对这种应用场景,进行实验。
sparkexpert
2022-05-07
5310
Spark实现HIVE统计结果导入到HBase操作
由于HIVE更新的机制极其不适应SPARK环境,于是利用HBase来执行HIVE中某些统计结果的更新。首先要做的是实现Spark + Hive访问,得到RDD,再将这个RDD导入到HBase中操作。 然而网上关于这一块目前资料还真很少。但是其原理总体上来说是非常简单的。 步骤主要是两步: (1)开启hive连接器,实现spark + hive的访问,得到dataframe对象。
sparkexpert
2022-05-07
5420
HIVE中数据更新(update)操作的实现
数据更新是一种常见的操作,然后数据仓库的概念一般要求的是数据是集成、稳定的。HIVE作为一种分布式环境下以HDFS为支撑的数据仓库,它同样更多的要求数据是不可变的。 然而现实很多任务中,往往需要对数据进行更新操作,经查,Hive自0.11版本之后就提供了更新操作。于是想着试验一下,看看HIVE更新的操作和性能。
sparkexpert
2022-05-07
14.8K0
Spark Hive在Eclipse代码中直接编译问题
利用Eclipse进行Spark开发过程中,特别是针对Hive开发时,经常会碰到这样一个问题,就是无法找到metastore。而一旦找不到的时候,hive会自动创建一个临时的本地的metastore,其提示INFO信息如下:
sparkexpert
2022-05-07
4410
Hive timestamp与date互转的实验
将date存成timestamp有个比较好的好处,是比较的效率肯定会高很多,而且也是目前HIVE能够支持的方式。
sparkexpert
2022-05-07
3100
从CSV文件导入Hive出现中文乱码问题解决
关于HIVE中文乱码问题的解决办法,网上有很多帖子,然而很多都是基于LINUX终端显示字符的修改,其实上对于一些条件下的HIVE中文乱码问题是无法解决的,如从CSV文件导入到HIVE中出现的中文乱码问题。
sparkexpert
2022-05-07
1.1K0
spark sql 无法访问 hive metastore问题解决
Spark SQL on Hive是Shark的一个分支,是HIVE执行分析引擎的一个重要利器。在Spark 1.5.1的时候,可以非常简单地在spark shell中进行Hive的访问,然而到了Spark 1.5.2时,发现进入Spark Shell的时候,总是出现报错,其原因总是无法访问hive的metastore,从而无法进行各种操作,相当的烦人的。 看了说明,说是要配置hive thrift服务,然而总是报各种失败! 困扰了很多天,终于搞定了。于是在这边将过程写下来。
sparkexpert
2022-05-07
8930
从Oracle批量导出CSV导入到HIVE中(含去掉引号)
以往很多系统经常用的是oracle数据库,在大数据环境下,许多应用都是去IOE的,那么其中老旧数据的迁移或者测试就是其中一块。
sparkexpert
2022-05-07
1.2K0
Hive V1.2.1源码的解译
在利用spark sql on hive的过程中,访问Mysql总是报错,其报错的日志总是显示:
sparkexpert
2022-05-07
2390
Spark1.5.1源码(Scala 2.11.7)的编译步骤
在编写spark程序的过程中,如果以master=local的方式是可以正常搞定的,然而如果将master设置为spark集群的方式则总是报各种错,通过源码查看,主要是AKKA通信与序列化之间的问题,而其核心原因是scala版本不匹配的问题。默认从apache官网下载的BIN包只支持2.10的,而2.11版本的还需要自己搞定。
sparkexpert
2022-05-07
3110
太多的.hive-stagingxxx文件的处理
跑一段时间的HIVE程序之后,偶尔打开对应的HDFS文件夹,才发现在其目录下,产生了太多的.hive-staging_hive_date-time_ XXX文件。 仔细一看,才发现几乎每个HIVE的查询语句都会产生这样的一个文件,这种文件会随着时间积累不断增加。 这也是前段时间造成HDFS目录到项的原因之一。 查了网上的相关说明,也没有比较好的说明,可能这是基于任何一个MAP REDUCE程序都需要报告结果一样的原因。而这个文件本身是没有什么意义的。 于是采取步骤如下: 1,在hive-site.xml中,
sparkexpert
2018-01-09
1.6K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档