首页
学习
活动
专区
工具
TVP
发布

桥路_大数据

专栏作者
179
文章
230236
阅读量
36
订阅数
用户自定义函数UDTF
Hive UDTF只有一种实现方式,需要继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF类,并重写initialize, process, close三个方法。
十里桃花舞丶
2021-09-10
4120
表的高级操作:分桶
但和分区不同的是,分区是将表拆分到不同的子目录中进行存储,而分桶是将表拆分到不同文件中进行存储。
十里桃花舞丶
2021-09-10
3150
表存储格式&数据类型
Hive支持的表类型,或者称为存储格式有:TextFile、SequenceFile、RCFile、ORC、Parquet、AVRO。
十里桃花舞丶
2021-09-10
1.6K0
【单点】每日突破,MapReduce分区
问:MapReduce在进行HashPartitoner时,会获取key的hashCode,之后为什么要与Integer.MAX_VALUE进行逻辑与计算?
十里桃花舞丶
2021-09-10
2020
【单点】每日突破,HBase布隆过滤器
如果有帮助的,记得点赞、关注。在公众号《数舟》中,可以免费获取专栏《数据仓库》配套的视频课程、大数据集群自动安装脚本,并获取进群交流的途径。
十里桃花舞丶
2021-09-10
6800
【小技巧】Shell批量处理报错信息,检测本地jar包是否存在
抛出了一堆使用冒号分割的jar包字符串。当然实际报错的jar包数量更多,这里截取了一部分。
十里桃花舞丶
2021-01-07
5900
Hive分桶一文读懂
但和分区不同的是,分区是将表拆分到不同的子目录中进行存储,而分桶是将表拆分到不同文件中进行存储。
十里桃花舞丶
2021-01-06
1.6K0
数据脱敏?Hive一个函数搞定
Hive在2.1.0版本后,支持数据屏蔽函数(Data Masking Functions),可以用于数据的快速掩码处理(脱敏)。
十里桃花舞丶
2021-01-06
2K0
windows自动化批处理删除文件
最近发现某软件删除某几个文件夹之后,就可以再次免费试用,但试用期结束之后需要再次重复删除。于是想到了批处理命令,大家可以创建txt文件,然后编辑命令后将文件后缀改成bat,然后双击运行即可完成批量删除操作。下面给大家讲解一下我查到和实验的结果。
十里桃花舞丶
2019-02-20
1.7K0
C++错误解决:double free or corruption (out): 0x00000000011abe70 ***
博主最近疯狂的迷恋上了leetcode刷题,想要锻炼脑力和算法思想的,推荐去这个网站上刷题。因为是用c++编写的,而且提交的时候会经常遇到一些报错。比如题目的这个。好了,下面开始解答。
十里桃花舞丶
2019-02-20
6.3K0
思维导图版Python3入门与进阶(一)基本数据类型
    自己也是在摸打滚爬中在慢慢的学习python3这门语言,之前是java开发,到后来转向python的学习,因为python语言对于数据处理方面还是异常强大。学习语言,自己的心得还是要多实践,最好是先打好基础,然后自己尝试着拿来使用,变成自己的东西才是最重要的。话不多说,这个专题会把自己学习python3的笔记和心得分享给大家。与大家共勉。
十里桃花舞丶
2019-02-20
5790
多云服务器kafka环境搭建并接收flume日志数据
前言 如果看过博主之前的文章,也可以了解到我正在搭建一个大数据的集群,所以花了血本弄了几台服务器。终于在flume将日志收集到日志主控flume节点上后,下一步要进行消息队列的搭建了。中间遇到过很多坎坷和坑,下面就为大家讲解一下搭建过程和注意事项,最终的成果是kafka搭建成功并接受flume主控传来的数据。 环境 服务器:CentOS7.2 JDK: jdk1.8.0_161 flume: apache-flume-1.6.0-cdh5.7.0 zookeeper: zookeeper-3.4.5-cdh
十里桃花舞丶
2018-05-17
1.1K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档