选型宝访谈:数据爆炸时代,如何驾驭海量日志?

饶琛琳 日志易 产品总监

杜卫普 日志易 技术总监

李维良 选型宝 首席架构师

写在前面

对于企业的CIO来说,日志是再熟悉不过的数据,它记录着设备、操作系统和应用软件的运行状态,是日常运维排障的重要依据。

今天,随着互联网的蓬勃发展和云计算的日益普及,日志数据的来源更加广泛,格式更加繁杂,数量更加庞大。如何快速地聚合、搜索日志, 智能地统计、分析日志,如何深度挖掘日志数据的价值,就成了摆在CIO面前的一个巨大的挑战。

带着CIO们的疑问和困惑,选型直播采访了日志易的产品总监饶琛琳和技术总监杜卫普。下面,就让我们一起来听,选型宝首席架构师李维良与日志易两位总监的精彩对话吧。

李维良(主持人)

企业的日志有哪些来源?日志数据有什么特点?

饶琛琳

日志是IT系统自己产生的数据,它的来源非常广泛,既包括服务器、网络设备、安全设备等硬件,也包括操作系统、数据库、中间件、应用程序等软件。在移动互联网和物联网时代,移动客户端和传感器等,也会产生大量日志。身处信息时代的企业,日志数据可以说无处不在,时刻反映着IT系统内在的真实状况。

日志数据有几个显著的特点:一是数据量大,二是分布散乱,三是格式繁杂。日志来源于机器,又有明显的大数据特征,因此,我们称之为“机器大数据”。

李维良

对企业来说,日志数据有哪些价值?

杜卫普

首先,日志是满足企业安全与合规性要求的必要数据。大家知道,从2017年6月1日起,《中华人民共和国网络安全法》正式施行,这部法律规定,对国家实行网络安全等级保护制度,网络运营者应当按照网络安全等级保护制度的要求,履行安全保护义务,保障网络免受干扰、破坏或者未经授权的访问,防止网络数据泄露或者被窃取、篡改。这些安全保护义务就包括:采取监测、记录网络运行状态、网络安全事件的技术措施,并按照规定留存相关的网络日志不少于六个月。

第二,日志有一个天然属性,那就是排障。在日志信息里,通常会包含时间戳、访问者IP地址、行为类别、响应状态等多种信息,当网络出现问题时,我们可以通过分析路由器、防火墙等设备的日志,快速找到故障的位置和原因。

第三,日志可以为企业的业务分析提供依据。比如,通过访问者的IP地址,我们可以分析出该用户来自哪个国家、哪个省、哪个市,从而全面掌握用户的地域分布情况。通过Web服务器的状态码,还可以感知网络状况和用户体验,比如: 200代表了访问成功, 404则代表访问失败等等。

因此,对企业来说,日志数据就是一座亟待挖掘的金矿。

李维良

在传统的运维模式下,日志数据是如何处理的?今天,企业为什么需要统一的日志处理系统?

饶琛琳

在传统模式下,企业的运维工程师一旦发现故障,通常会登录服务器,然后通过字符界面的控制台,用grep、sed、awk等脚本工具处理日志并查找故障原因。随着IT和业务系统复杂度的增加,日志常常分散在多台服务器上,每次查找和处理日志,都要逐一登录各台服务器,耗时长,效率低,无法及时找到故障根源。如果遇到外部入侵,黑客们常常会删掉服务器或网络设备上的日志文件,抹掉作案证据,让我们无从追溯。

基于上述情况,企业亟需一套统一的日志处理系统,帮助我们聚合、备份日志,建立索引,快速分析,及时定位故障原因,提高运维工作效率。同时,统一的日志处理系统还可以对不同来源的日志进行对照关联分析,从而更深入地挖掘日志数据的价值。

李维良

日志易是怎样一款产品?它的工作原理是怎样的?有哪些典型的应用场景?

饶琛琳

日志易是国内领先的海量日志搜索分析平台,可以对日志进行集中采集和实时索引,并提供了实时搜索、分析、可视化和监控告警等功能,从而帮助企业在统一的平台上,实时管理日志数据,满足企业线上业务实时监控、异常原因定位、数据统计分析及安全合规审计等需求。

从宏观上看,日志易的工作原理并不复杂。首先,通过大范围的、分布式的数据采集,先将各个系统上的日志数据聚合在一起,然后再对日志做结构化处理,并将其导入到索引系统里,做长期的存储。在此基础上,我们可以实现日志的查询、统计和可视化等功能。这其中,日志的格式化处理,用户可根据情况,选择在索引阶段完成,或在检索阶段完成。

杜卫普

日志易有以下几种典型应用场景:1、安全合规审计;2、IT运维与故障排查;3、在线业务统计分析;4、应用性能监控与优化。

李维良

日志易为企业传统的日志处理方式,带来了哪些新的变化?

饶琛琳

做为统一的日志处理系统,日志易实现了日志数据的集中管理,这样一来,我们在处理日志时,就不再需要登录网络设备或服务器,从而实现了开发调试环境与生产环境的安全区隔。

通过集中管理,我们还可以实现跨网络、跨系统、跨业务的多源日志的关联分析,从而为IT运维和业务运营提供更深入、更强大的支持。

杜卫普

日志易实现了一种全新的日志处理方式,它可以快速收集来源广泛,格式多样的海量日志数据,并采用搜索引擎的技术和方法,实现基于关键字的快速搜索、安全告警、计划任务等功能。同时,通过灵活开放的SPL(Search Processing Language)语言,满足用户个性化、场景化的日志管理需求。

李维良

日志易支持哪些部署方式?

杜卫普

日志易的部署方式非常灵活,从单一服务器,到数百台服务器的集群,都可以完成部署。用户既可以通过公有云,享用日志易的SaaS服务,也可以将系统部署在企业内部的数据中心,并命名为“某某日志云”,从而实现个性化定制。

同时,日志易也和UCloud、阿里云、腾讯云、金山云、AWS等开展了合作,如果用户的日志产生在这些公有云上, 可以注册对应公有云的日志易SaaS服务。

李维良

日志易支持哪些类型的日志?如何上传这些日志?

杜卫普

日志易可以接收、处理任何文本格式的日志,不管它是来自网络及安全设备的,还是来自操作系统的,或是来自数据库、中间件的。同时,它也不管数据的量有多大,格式有多复杂,只要是带有时间戳的机器数据,日志易都可以处理。

用户可以通过rsyslog,实时上传日志数据。大部分Linux操作系统已经内置了rsyslog,我们为用户提供了标准配置模版,您只需对模版进行简单修改,即可实现日志数据上传。

日志也可以通过HTTP POST批量上传,任何可以上网的设备,都可以转发日志。对于无法直连日志易的设备,可以设置一个中央代理,将日志数据转发到日志易。

李维良

日志易使用了哪些核心技术,它是如何做到每秒接收处理300万条日志的?

饶琛琳

无论在产品功能上,还是在核心技术上,海量日志的快速处理,一直是我们特别专注的地方。为此,我们利用了搜索引擎的技术原理,在对文本进行倒排索引并切词之后,将其存储下来,从而实现快速的搜索。因此,从宏观上看,日志易更像Google和百度 。

日志易采用了高可扩展性的分布式系统架构设计,可以支持每日数十TB 的新增数据。还具有精细粒度的访问权限控制,可以控制每个用户对服务和资源的访问。

针对日志数据的特殊性呢,我们还发明了一些创新技术,并获得了十余项技术发明专利。

李维良

在开放性和灵活性的方面,日志易是怎样做的?

杜卫普

在日志易中,用户可以使用搜索处理语言,即SPL,实现强大而灵活的统计分析功能。SPL与SQL有许多相似之处,但前者更适合处理日志这样的流式数据。SPL入门很简单,同时它也可以通过编写数百行的代码,实现非常复杂的查询。

在SPL支持方面,日志易投入了大量的人力和时间,并在行业内形成了一定的壁垒。未来,我们相信,SPL能和SQL一样,被纳入到ISO的大家族之中。

李维良

与Hadoop框架下的日志处理工具Hive和Pig相比,日志易有哪些优势?

饶琛琳

Hadoop是个开源框架,使用门槛较高,优秀的开发工程师不容易招到。而且,Hadoop是批处理,实时性较差。不少使用Hadoop处理日志的公司,通常是每天晚上处理当天的日志,第二天出统计报表。有些公司做得好些,每隔几小时处理一次日志,但也只能看到几小时前的日志分析。日志易是专为日志处理而生的,它使用了性能比Hadoop快10倍的Spark Streaming架构,查询、分析日志,延时只有几秒。

李维良

与ELK相比,日志易有哪些优势?

饶琛琳

ELK指Elasticsearch、Logstash、Kibana这3个开源软件的组合,可用于日志搜索。但使用ELK处理日志,有以下一些问题:首先是运维管理不方便。ELK是三个独立的系统,没有统一的部署和管理工具;第二,没有告警功能;第三,没有用户认证及权限管理功能;第四,统计、分析功能有限;第五,Elasticsearch存在严重的安全漏洞。

日志易则是一套成熟的系统,提供了统一的部署、管理、监控以及邮件、短信告警功能,非常方便运维管理。日志易还提供了丰富的用户认证及权限管理功能。在日志来源多样、数据量大、延时要求短、功能要求多、希望拿来就用(不需要二次开发)的情况下,那么,日志易就是企业的最好选择。

李维良

日志易与Splunk相比,有哪些特点?

杜卫普

Splunk是出自美国的日志搜索分析工具软件,也是日志易对标的产品。目前,Splunk有的功能,日志易都有;另外,在一些细节上,我们还有一些Splunk没有的功能。

相比Splunk,日志易在价格上更亲民,更实惠。而且,我们在北京、深圳有研发团队,可结合国内用户的使用场景,提供更能满足国内用户需求的产品和服务。

李维良

日志易与APM及NPM相比,有什么不同?

杜卫普

应用性能管理系统APM (Application Performance Management)与网络性能管理系统 NPM(Network Performance Management)都属于ITOA(IT Operation Analytics)的范畴。

APM监控特定软件系统的性能和可用性。传统的 APM 通过在代码中嵌入代理,获取代理数据(Agent Data),或通过探针数据(Probe Data),监控和检测异常,分析应用程序的性能;NPM则 通过网络通信数据(Wire Data)监控系统性能。

日志数据无处不在,应用程序、操作系统、数据库、甚至硬件都生成日志,日志易不需要在这些系统中嵌入插件,只需要采集这些系统的日志就能做分析,非常方便。APM 或 NPM 系统也需要依赖日志分析,日志易可为它们提供日志数据源。

李维良

AIOps是最近比较热门的话题,日志易和AIOps之间的关系是怎样的?

饶琛琳

AIOps是基于算法的IT运维(Algorithmic IT Operations),源自业界之前所说的ITOA。AIOps的提出,旨在通过算法与工具的集成,帮助企业进一步简化运维工作,把人类从耗时又容易出错的运维流程中解放出来。算法的基础是数据,没有一流的数据,再好的算法,也不会产生一流的结果。

日志易专注于日志数据的采集和处理,并借助SPL中数十个精心设计的统计分析和机器学习算法,为用户提供故障预警等多种功能,使企业的运维工作更有针对性和预见性,大幅提高运维工作的效率。

李维良

日志易重点关注哪些行业?都有哪些成功案例?

杜卫普

日志易关注所有行业,因为每个行业都有日志数据。目前,对日志易需求较多的,是那些信息化相对比较成熟的行业,如:金融、能源、运营商、互联网等。在我们的客户名单中,有很多大家耳熟能详的名字,如:中国银行、国家电网、中国移动,小米、乐视等等。

经过几年的发展,日志易目前已经初具规模,我们会继续努力,为各个行业的用户提供优秀的产品和优质的服务,共同打造日志生态系统。

李维良

日志易这款产品是从何时开始研发的?是什么让你们有了开发日志易的想法?

杜卫普

日志易公司是2014年3月成立的,日志易这个名字,也代表了我们创业的初衷:让日志分析,这个原本很难的事情呢,变得容易。

我们公司的创始人兼CEO陈军,当年是湛江市的高考状元,1997年毕业于美国南加州大学,获得计算机硕士学位。毕业后,他曾先后就职于思科、微软、谷歌等公司,主攻网络和搜索技术。在美工作期间,陈总获得了多项计算机网络及分布式系统相关专利。2009年,陈总回国加入腾讯,做云计算数据中心,后来又在高德地图担任过技术副总裁职务。

之前的这些工作经历,让陈总对运维工作中的痛点有了深刻的理解,2014年初,他创办了日志易,并担任CEO。公司于2015年12月获得红杉资本中国基金6000万元A轮投资,这也为公司在ITOA市场继续领跑奠定了坚实的基础。

李维良

日志易未来的发展方向是什么?

饶琛琳

未来,日志易会以目前的日志分析平台为基础,向智能运维平台的方向发展。我们最近发布的日志易v1.1版,已经在这方面做了一些尝试。日志易的核心还是日志数据和搜索引擎,但是在上层,我们会为用户提供更多类似UBA(User Behavior Analysis 用户行为分析)这样的价值点。

杜卫普

在机器学习方面,我们会专注于两个方向:第一个是“异常分析”。比如:ABCD四个故障,A出现几次,B出现几次,C出现几次,那么,下一个出现的,可能就是故障D;第二个是“容量预测”,依据今年的数据,提前知道明年需要多少CPU,多少内存,多少硬盘等等。机器学习有很多应用场景和发展方向,但我们会聚焦在实用性强、可以落地的一些点上。通过机器学习等新技术的应用,我们相信,日志易一定能为AI时代的企业提供更多的价值。

李维

谢谢饶总和杜总的精彩分享!

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券