现有网站访问日志,日志的数据格式如下:
93.180.71.3 - - [17/May/2015:08:05:32 +0000] "GET /downloads/product_1 HTTP/1.1" 304 0 "-" "Debian APT-HTTP/1.3 (0.8.16~exp12ubuntu10.21)"
93.180.71.3 - - [17/May/2015:08:05:23 +0000] "GET /downloads/product_1 HTTP/1.1" 304 0 "-" "Debian APT-HTTP/1.3 (0.8.16~exp12ubuntu10.21)"
80.91.33.133 - - [17/May/2015:08:05:24 +0000] "GET /downloads/product_1 HTTP/1.1" 304 0 "-" "Debian APT-HTTP/1.3 (0.8.16~exp12ubuntu10.17)"
日志的各项数据由空格进行分隔,现在需要统计每个IP的访问次数。
所以在数据中,只需要关注IP地址。提取到IP地址之后,其实就是在做wordcount词频统计了。此案例较为简单,可以作为巩固练手项目。在wordcount基础之上,进行改造,完成代码编写。
完整的数据如下:
链接:https://pan.baidu.com/s/140oXyqA8ViBdIxu0SB4utg
提取码:fv4n
复制这段内容后打开百度网盘手机App,操作更方便哦--来自百度网盘超级会员V3的分享
<