日志分析实战之清洗日志小实例4:统计网站相关信息

问题导读 1.如何统计网站总的点击量? 2.如何实现统计不能访问网页的个数? 3.文章中如何定义和使用Scala函数的? 导入之后,我们创建AccessLogParser实例

[Bash shell] 纯文本查看 复制代码

?

val p = new AccessLogParser

这个很重要,在后面我们会用到 首先我们需要加载一部分日志样例。

[Bash shell] 纯文本查看 复制代码

?

192.168.169.50 - - [17/Feb/2012:10:09:13 +0800] "GET /favicon.ico HTTP/1.1" 404 288 "-" "360se"
192.168.169.50 - - [17/Feb/2012:10:36:26 +0800] "GET / HTTP/1.1" 403 5043 "-" "Mozilla/5.0 (Windows NT 5.1; rv:6.0) Gecko/20100101 Firefox/6.0"
192.168.169.50 - - [17/Feb/2012:10:36:26 +0800] "GET /icons/powered_by_rh.png HTTP/1.1" 200 1213 "http://192.168.55.230/" "Mozilla/5.0 (Windows NT 5.1; rv:6.0) Gecko/20100101 Firefox/6.0"
192.168.169.50 - - [17/Feb/2012:10:09:10 +0800] "GET /icons/powered_by_rh.png HTTP/1.1" 200 1213 "http://192.168.55.230/" "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; InfoPath.2; 360SE)"
192.168.55.230 - - [24/Feb/2012:09:48:58 +0800] "GET /favicon.ico HTTP/1.1" 404 288 "-" "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.2.24) Gecko/20111109 CentOS/3.6-3.el5.centos Firefox/3.6.24"
192.168.169.50 - - [24/Feb/2012:09:45:03 +0800] "GET /server-status HTTP/1.1" 404 290 "-" "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; InfoPath.2; 360SE)"
192.168.55.230 - - [24/Feb/2012:09:49:02 +0800] "GET / HTTP/1.1" 403 5043 "-" "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.2.24) Gecko/20111109 CentOS/3.6-3.el5.centos Firefox/3.6.24"
192.168.55.230 - - [24/Feb/2012:09:49:02 +0800] "GET /icons/apache_pb.gif HTTP/1.1" 200 2326 "http://192.168.55.230/" "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.2.24) Gecko/20111109 CentOS/3.6-3.el5.centos Firefox/3.6.24"
192.168.55.230 - - [24/Feb/2012:09:49:02 +0800] "GET /icons/powered_by_rh.png HTTP/1.1" 200 1213 "http://192.168.55.230/" "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.2.24) Gecko/20111109 CentOS/3.6-3.el5.centos Firefox/3.6.24"
192.168.55.230 - - [24/Feb/2012:09:49:20 +0800] "GET /server-status HTTP/1.1" 404 290 "-" "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.2.24) Gecko/20111109 CentOS/3.6-3.el5.centos Firefox/3.6.24"

将其保存为aboutyun.log 将其上传到hadoop

[Bash shell] 纯文本查看 复制代码

?

hadoop fs -put aboutyun.log /

上传成功验证

统计网站总的点击量 接着我们加载文件。

[Bash shell] 纯文本查看 复制代码

?

var log=sc.textFile("/aboutyun.log")

这里sc是系统已经初始化的,我们可以直接使用,可以理解为sparkContext的实例

加载之后,我们统计行数,也可以理解为统计网站总的点击量。这时候我们就看到总点击量为10

统计网站不能访问网页的数量 首先我们定义一个函数,获取一条记录的httpStatusCode,也就是返回码

[Scala] 纯文本查看 复制代码

?

def getStatusCode(line: Option[AccessLogRecord]) = {
  line match {
    case Some(l) => l.httpStatusCode
    case None => "0"
  }
}

定义函数之后,我们接着使用

[Bash shell] 纯文本查看 复制代码

?

log.filter(line => getStatusCode(p.parseRecord(line)) == "404").count

上面的p是我们前面定义的对象。 val p = new AccessLogParser,然后调用了parseRecord函数。这些都是jar包的内容。大家可以详细看看。

这样404网页的个数就统计出来了。后面我们可以做一些更加复杂的内容 ################# 补充说明 1.在统计日志测试的时候,文件一定标准,否则会统计错误,比如日志要换行 2.函数定义 附上所用函数的相关信息 Option and Either

Option和Either都是用来让返回值可以有两个选择

而Option是比较简单的版本, 两个选择, 一定是成功Some, 和失败None Option意味着可能有值some(x), 也可能没有值(用None对象, 表示缺失), 典型的例子就是从字典里取值

[Scala] 纯文本查看 复制代码

?

val capitals = Map("France" -> "Paris", "Japan" -> "Tokyo")
def show(x: Option[String]) = x match { //Option类型, 可选的String
    case Some(s) => s
    case None => "?"
}
scala> show(capitals get "France")
res24: String = Paris
scala> show(capitals get "North Pole")
res25: String = ?

以前的方式, 比如Java, 通过null来表示没有取到值, 但是有的时候null可能作为合法值出现, 就需要特殊处理, 很麻烦 而Scala提供option来比较优雅的解决这个问题

Either, 更为通用一些, 可用自己定义两种选择, 直接看个spark源码中的例子, 对于PutResult中的data, 有可能是ByteBuffer或者Iterator 而使用的时候, 使用Left和Right来选择到底用哪一个

[Scala] 纯文本查看 复制代码

?

private[spark] case class PutResult(size: Long, data: Either[Iterator[_], ByteBuffer])
 
PutResult(sizeEstimate, Left(values.iterator))PutResult(bytes.limit(), Right(bytes.duplicate()))

这里无论option或either都提高了极好的灵活性, 在Java中如果要返回一个有两种可能性的值就比较不那么优雅了

原文发布于微信公众号 - about云(wwwaboutyuncom)

原文发表时间:2017-10-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Java成神之路

Java之网络编程笔记

  IP地址:用于标记一台计算机的身份证。 IP地址由网络地址(确定网络)和主机地址(网络中的主机)组成。

1122
来自专栏Star先生的专栏

从源码中分析 Hadoop 的 RPC 机制

RPC是Remote Procedure Call(远程过程调用)的简称,这一机制都要面对两个问题:对象调用方式余与序列/反序列化机制。本文给大家介绍从源码中分...

7320
来自专栏圣杰的专栏

ABP入门系列(7)——分页实现

完成了任务清单的增删改查,咱们来讲一讲必不可少的的分页功能。 首先很庆幸ABP已经帮我们封装了分页实现,实在是贴心啊。 来来来,这一节咱们就来捋一捋如何使用...

3285
来自专栏Jerry的SAP技术分享

在ABAP里模拟实现Java Spring的依赖注入

Dependency Injection- 依赖注入,在Java Spring框架中有着广泛地应用。通过依赖注入,我们不必在应用代码里繁琐地初始化依赖的资源,非...

1052
来自专栏开发技术

spring-boot-2.0.3不一样系列之源码篇 - run方法(二)之prepareEnvironment,绝对有值得你看的地方

  此系列是针对springboot的启动,旨在于和大家一起来看看springboot启动的过程中到底做了一些什么事。如果大家对springboot的源码有所研...

2653
来自专栏向治洪

JSBridge深度剖析

概述 做过混合开发的人都知道Ionic和PhoneGap之类的框架,这些框架在web基础上包装一层Native,然后通过Bridge技术的js调用本地的库。 在...

3445
来自专栏葡萄城控件技术团队

七天学会ASP.NET MVC (三)——ASP.Net MVC 数据处理

? 第三天我们将学习Asp.Net中数据处理功能,了解数据访问层,EF,以及EF中常用的代码实现方式,创建数据访问层和数据入口,处理Post数据,以及数据验...

34810
来自专栏逆向技术

x64内核HOOK技术之拦截进程.拦截线程.拦截模块

            x64内核HOOK技术之拦截进程.拦截线程.拦截模块 一丶为什么讲解HOOK技术. 在32系统下, 例如我们要HOOK SSDT表,那么...

5057
来自专栏黑泽君的专栏

day50_BOS项目_02

我们再补上IUserDao和UserDaoImpl的示例代码: IUserDao.java

862
来自专栏Adam笔记

KSCrash源码分析

8500

扫码关注云+社区

领取腾讯云代金券