首页
学习
活动
专区
工具
TVP
发布

大数据智能实战

大数据与人工智能方向的论文复现、技术探索、工程实践的点滴记录和积累。
专栏作者
256
文章
390920
阅读量
56
订阅数
Hive 插入数据时遇到Return Code 2问题的解决
Hive运行成功之后,当输入select count(*) from XX或者插入数据时,居然碰到BUG。
sparkexpert
2022-05-07
9400
百度地图大数据MapV的相关介绍
百度地图是一个市场占有率达到70%的产品,今天在查资料过程中,无意看到百度地图大数据的一个开源产品。(https://github.com/huiyan-fe/mapv)
sparkexpert
2022-05-07
2340
HIVE中数据更新(update)操作的实现
数据更新是一种常见的操作,然后数据仓库的概念一般要求的是数据是集成、稳定的。HIVE作为一种分布式环境下以HDFS为支撑的数据仓库,它同样更多的要求数据是不可变的。 然而现实很多任务中,往往需要对数据进行更新操作,经查,Hive自0.11版本之后就提供了更新操作。于是想着试验一下,看看HIVE更新的操作和性能。
sparkexpert
2022-05-07
14.8K0
从CSV文件导入Hive出现中文乱码问题解决
关于HIVE中文乱码问题的解决办法,网上有很多帖子,然而很多都是基于LINUX终端显示字符的修改,其实上对于一些条件下的HIVE中文乱码问题是无法解决的,如从CSV文件导入到HIVE中出现的中文乱码问题。
sparkexpert
2022-05-07
1.1K0
从Oracle批量导出CSV导入到HIVE中(含去掉引号)
以往很多系统经常用的是oracle数据库,在大数据环境下,许多应用都是去IOE的,那么其中老旧数据的迁移或者测试就是其中一块。
sparkexpert
2022-05-07
1.2K0
C# 随机生成手机号码(中国地区)
做大数据挖掘,其中通话记录是很重要的一种实时大数据。为了做实验,往往需要生成随机手机号。
sparkexpert
2022-05-07
1.2K0
RHadoop 例子WordCount测试
安装完RHadoop,当然要进行一下例子测试,看了网上相关的关于wordcount的例子,还是有不少,有些还比较模糊,于是就把自己下载的代码与编译结果记录一下:
sparkexpert
2022-05-07
1680
RHadoop的安装与试验
install.packages("rJava") install.packages("reshape2") install.packages("Rcpp") install.packages("iterators") install.packages("itertools") install.packages("digest") install.packages("RJSONIO") install.packages("functional")
sparkexpert
2022-05-07
1980
HBase暴力删除HDFS数据后建表出现Table already exist问题的解决
在一些情况下,不得不对HBase数据进行暴力删除,这种情况如原始数据量特别大,而又不需要存储的时候。或者HBase无法启动等问题。 删除比较简单,直接调用hadoop fs -rm -r /hbase
sparkexpert
2018-01-09
1K0
太多的.hive-stagingxxx文件的处理
跑一段时间的HIVE程序之后,偶尔打开对应的HDFS文件夹,才发现在其目录下,产生了太多的.hive-staging_hive_date-time_ XXX文件。 仔细一看,才发现几乎每个HIVE的查询语句都会产生这样的一个文件,这种文件会随着时间积累不断增加。 这也是前段时间造成HDFS目录到项的原因之一。 查了网上的相关说明,也没有比较好的说明,可能这是基于任何一个MAP REDUCE程序都需要报告结果一样的原因。而这个文件本身是没有什么意义的。 于是采取步骤如下: 1,在hive-site.xml中,
sparkexpert
2018-01-09
1.6K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档