前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【MapReduce】案例学习

【MapReduce】案例学习

作者头像
十里桃花舞丶
发布2021-09-10 11:25:46
1940
发布2021-09-10 11:25:46
举报
文章被收录于专栏:桥路_大数据桥路_大数据

MapReduce案例学习

基于日志的简单统计

现有网站访问日志,日志的数据格式如下:

代码语言:javascript
复制
93.180.71.3 - - [17/May/2015:08:05:32 +0000] "GET /downloads/product_1 HTTP/1.1" 304 0 "-" "Debian APT-HTTP/1.3 (0.8.16~exp12ubuntu10.21)"
93.180.71.3 - - [17/May/2015:08:05:23 +0000] "GET /downloads/product_1 HTTP/1.1" 304 0 "-" "Debian APT-HTTP/1.3 (0.8.16~exp12ubuntu10.21)"
80.91.33.133 - - [17/May/2015:08:05:24 +0000] "GET /downloads/product_1 HTTP/1.1" 304 0 "-" "Debian APT-HTTP/1.3 (0.8.16~exp12ubuntu10.17)"

日志的各项数据由空格进行分隔,现在需要统计每个IP的访问次数。

所以在数据中,只需要关注IP地址。提取到IP地址之后,其实就是在做wordcount词频统计了。此案例较为简单,可以作为巩固练手项目。在wordcount基础之上,进行改造,完成代码编写。

完整的数据如下:

代码语言:javascript
复制
链接:https://pan.baidu.com/s/140oXyqA8ViBdIxu0SB4utg 
提取码:fv4n 
复制这段内容后打开百度网盘手机App,操作更方便哦--来自百度网盘超级会员V3的分享
<
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021-08-27 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • MapReduce案例学习
    • 基于日志的简单统计
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档