数据之美-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据之美

专栏成员

138

文章

411195

阅读量

63

订阅数

巧用 Hive 模拟分布式 grep

hive 分布式 grep 编程算法

grep 由于内置高效的字符串搜索算法，兼容各种风格的正则，且功能众多，有着 linux 下字符串处理三剑客之一的称号，但是到了如今的大数据/分布式时代，这种单机时代的工具显得有些廉颇老矣。。。 1、需求背景我们经常会遇到需要在 hadoop 上查找原始日志，校对 ETL 数据的情况，往往很多同学直接用的老办法： hadoop fs -cat /M_track/$yesterday/* | grep ooxx | wc -l 这种情况下是要把分布在整个集群上的日志都拉到单机上 grep 然后 wc，这是一

2018-02-24

1.2K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态