Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >CLS「数据加工」:实时处理腾讯会议千亿级日志

CLS「数据加工」:实时处理腾讯会议千亿级日志

原创
作者头像
日志服务CLS小助手
修改于 2022-01-04 12:38:52
修改于 2022-01-04 12:38:52
77100
代码可运行
举报
文章被收录于专栏:日志服务CLS日志服务CLS
运行总次数:0
代码可运行

作者:hermine

导语:云原生日志服务(Cloud Log Service,CLS)是腾讯云提供的一站式日志数据解决平台,提供了从日志采集、日志存储到日志检索,图表分析、监控告警、日志投递等多项服务,协助用户通过日志来解决业务运维、服务监控、日志审计等场景问题。

2021年Q4重磅推出「数据加工」,2022.3.15前免费,欢迎大家使用该功能!

数据加工—海量日志实时处理

数据加工
数据加工

首先,数据加工是什么呢?

CLS平台在采集到日志数据之后,对杂乱无章的文本日志进行归类、结构化、清洗过滤脏数据等处理,处理后的日志数据可以应用于日志的检索分析、仪表盘、告警等功能。处理原始日志的过程,就是数据加工。

对于用户而言,数据加工的目标可以是:

  • 提取结构化的数据,方便后续检索分析、生成仪表盘等。
  • 日志过滤,对日志进行减肥瘦身。丢弃不需要的日志数据,节约存储成本、流量成本。
  • 敏感数据脱敏,例如将用户的身份证、手机号码脱敏。
  • 日志分类投递,例如按照日志级别:ERROR、WARNING、INFO 将日志分类,然后分发到不同的日志主题。
  • 日志富化,根据已存在的字段值,富化出新的字段,比如0755、010、021,富化出深圳、上海、北京。

接下来,本文会重点介绍腾讯会议某内容社区头部客户的案例,在实际应用中理解数据加工的作用。

客户案例

腾讯会议——千亿日志实时处理

腾讯会议的数据服务团队需要从客户端的海量日志数据(千亿条/天) 上报中, 实时从中获取需要的部分数据, 按照规则提取和处理后进行回流分析和业务判断。

一开始, 客户调研自建大数据流处理平台来进行日志数据处理的方案。

该方案首先需要进行整个平台的搭建,并且需要解决日志采集-->Flink集群部署-->编写Java数据处理逻辑等问题。在业务接入和使用中,用户还要关注该集群的运维和性能。整个项目实施周期长,维护成本高

后来,客户了解到CLS数据加工的能力, 在体验了CLS数据加工可视化界面、了解测试了DSL函数能力后,客户选择使用CLS数据加工来完成上述需求。

用户无需关注平台建设、运维以及复杂的Flink Java编程,简单、灵活、低成本的使用数据加工功能即可完成业务需求。

自建大数据流处理平台 VS CLS数据加工
自建大数据流处理平台 VS CLS数据加工

根据以上分析,我们不难看出:

在处理日志方面,比起自建大数据流处理平台,CLS数据加工具有开箱即用无建设成本、业务接入使用门槛更低、运维成本更低的优势。

在性能方面,腾讯会议的千亿日志数据压测,也凸显了CLS数据加工的性能优越

某头部内容社区平台——日志过滤

该客户的原始日志量很大,费用较高,为降低成本,客户仅想保留关键业务相关的日志。

通过CLS数据加工函数,客户可过滤掉不需要的日志,最后日志量缩减为30%,真正做到了为用户省钱。

业务流程
业务流程

那具体可以节省多少费用呢?

假定原始日志100GB/天,经过数据加工的日志过滤之后,缩减为30GB/天假定客户的日志存储是30天,开启了部分键值索引,而且索引流量刚好和写入日志主题的流量相等(为方便计算),从第31天开始的费用大致如下图,费用从每100GB 122元/天下降至70.75元/天,最终下降至原始价格的59%

日志过滤前后费用对比
日志过滤前后费用对比

注:表中的价格为刊例价

操作手册

在了解了两个典型客户案例后,不妨跟随我一起进入实战演练,CLS为没有日志的同学也准备了试用功能哦。

详细操作步骤请见:

https://cloud.tencent.com/document/product/614/63940

1. 新建数据加工

数据加工的入口在腾讯云CLS控制台,填写完加工任务名称、源日志主题、目标日志主题之后,就可以进入加工语句编辑页面。

数据加工入口界面
数据加工入口界面

2. 编辑加工语句

1)如果您的日志主题中有数据:新建数据加工任务之后,它会自动加载原始日志主题的数据,在编辑框中编写你的DSL加工函数语句,就可以完成实时日志流的处理。

2) 如果您暂时没有日志:下方左侧是原始日志/自定义数据两个标签页,第二标签页是自  定义数据标签页,填入JSON格式的日志,就可以试用数据加工了。

  • DSL函数生成器:可以查看DSL的解释说明、复制DSL函数的示例到自己的编辑框,修改后使用。
  • 保存数据加工任务。任务会持续运行,加工日志流,直到用户手动停止任务。
数据加工演示
数据加工演示

下面我们来举个栗子吧。

场景描述

小王将日志采集到 CLS,是单行文本格式。现在小王想将日志结构化,从文本中提取日志时间、日志级别、操作、URL 信息,便于后续的检索分析。

场景分析

梳理一下小王的加工需求,加工思路如下:

1)使用正则提取日志时间、日志级别、URL。

2){...}中的内容是操作的详情,可以通过正则提取。

原始日志

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
{    "content": "[2021-11-24 11:11:08,232][328495eb-b562-478f-9d5d-3bf7e][INFO] curl -H 'Host: ' http://abc.com:8080/pc/api -d {\"version\": \"1.0\",\"user\": \"CGW\",\"password\": \"123\",\"interface\": {\"Name\": \"ListDetail\",\"para\": {\"owner\": \"1253\",\"orderField\": \"createTime\"}}}"}

DSL加工函数

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
fields_set("Action",regex_select(v("content"),regex="\{[^\}]+\}",index=0,group=0))
fields_set("loglevel",regex_select(v("content"),regex="\[[A-Z]{4}\]",index=0,group=0))fields_set("logtime",regex_select(v("content"),regex="\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2},\d{3}",index=0,group=0))
fields_set("Url",regex_select(v("content"),regex="([a-z]{3}).([a-z]{3}):([0-9]{4})",index=0,group=0))
fields_drop("content")

DSL加工函数详解

新建一个字段 Action,使用正则{[^}]+},匹配{...}。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
fields_set("Action",regex_select(v("content"),regex="\{[^\}]+\}",index=0,group=0))

新建一个字段 loglevel,使用正则[A-Z]{4}可以匹配 INFO。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
fields_set("loglevel",regex_select(v("content"),regex="\[[A-Z]{4}\]",index=0,group=0))

新建一个字段 logtime,使用正则d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2},\d{3}匹配2021-11-24 11:11:08。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
fields_set("logtime",regex_select(v("content"),regex="\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2},\d{3}",index=0,group=0))

新建一个字段 Url,使用正则[a-z]{3}.[a-z]{3}匹配 abc.com,[0-9]{4}匹配8080。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
fields_set("Url",regex_select(v("content"),regex="([a-z]{3}).([a-z]{3}):([0-9]{4})",index=0,group=0))

丢弃 content 字段。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
fields_drop("content")

加工结果

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
{"logtime":"2021-11-2411:11:08,232","loglevel":"[INFO]","Url":"abc.com:8080","Action":"{\"version\": \"1.0\",\"user\": \"CGW\",\"password\": \"123\",\"interface\": {\"Name\": \"ListDetail\",\"para\": {\"owner\": \"1253\",\"orderField\": \"createTime\"}"}

更多数据加工实战案例,可以访问腾讯云官网:

https://cloud.tencent.com/document/product/614/66375

轻松复制文档中日志样例和DSL加工函数的代码,在控制台跑一跑,你会有新发现,快来免费试用吧。

结语

数据加工为其上层的检索分析、仪表盘、告警等应用提供了结构化的日志数据,帮助您在运维场景中更加游刃有余的分析日志、排查故障、指定运维决策。

附表:DSL函数大类和举例

DSL函数大类及举例
DSL函数大类及举例

以上就是关于「CLS数据加工」重磅功能的案例分享,如果您有更多有意思的日志实践玩法分享,欢迎投稿!

一站式日志数据解决方案平台
一站式日志数据解决方案平台

关注「腾讯云日志服务CLS技术交流群」,掌握最新动态,获取更多资讯!

日志服务CLS交流平台
日志服务CLS交流平台

往期文章:

【日志服务CLS】一键开启腾讯电子签的高效运维之旅

日志源解析|自建Kubernetes集群部署CLS日志服务原理及场景实现

【日志服务CLS】免费体验Demo日志:一键开启,CLS全功能开箱即用

【日志服务CLS】容器服务TKE审计日志运维场景体验

【日志服务CLS】Nginx日志数据全方位大解析

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
IEG Global x CLS:「游戏出海 -日志合规」史上最全案例教程
随着腾讯游戏业务海外扩展的进程加快,腾讯云也加速了游戏海外合规的能力建设。而海外各国的监管机构也在不断强化执法,中国输出的文化产品在海外运营中面临着各种合规压力。
日志服务CLS小助手
2022/04/08
2K0
日志服务Grafana可视化实践——从自建ELK到使用CLS
互联网时代的公司业务种类繁多,在这些业务每日工作的背后,是各类日志系统承担日志记录和检索排障的工作。 在业务上云的大趋势之下,越来越多的团队开始选择使用腾讯云日志服务CLS来解决他们的日志采集与存储、排障检索、数据分析、告警监控、可视化展示的系列诉求。很多公司团队已经开始将日志服务从自建的ELK转移到CLS,通过LogListener采集日志并上传,使用CLS的检索分析功能。
日志服务CLS小助手
2022/03/31
2.3K1
CLS数据加工:日志清洗利器
日志数据采集到CLS日志主题之后,用户可以使用「数据加工」功能来处理原始日志,对其进行归类、结构化、清洗过滤脏数据等处理,处理后的日志数据就可以应用于日志的检索分析、仪表盘、告警等功能。
日志服务CLS小助手
2022/04/28
1.6K3
【日志服务CLS】初识腾讯 CLS 高速检索与 Nginx 预报警服务~
和尚虽然是移动端开发,但对于 Nginx 负载均衡稍稍有些了解,而曾经的毕业论文就是以 Nginx 为研究方向进行的,今天根据 腾讯云+社区 活动,简单尝试一下 Nginx 日志服务;
阿策小和尚
2021/05/18
1.3K1
【CLS数据淘金第五期】 云产品 CLB 日志抽样,独家发布
点击蓝字 关注我们 导语 负载均衡(Cloud Load Balancer,CLB)提供安全快捷的流量分发服务,访问流量经由 CLB 可以自动分配到云中的多台云服务器上,扩展系统的服务能力并消除单点故障。负载均衡支持亿级连接和千万级并发,可轻松应对大流量访问,满足业务需求。 CLB 访问日志当前支持基于 7 层负载均衡,访问日志内容丰富,可以涵盖多种场景的内容。 「CLS数据淘金第一期」介绍过 CLB 两大主要场景:运维监控场景与运营统计场景;本期我们将对运维监控场景做进一步的补充,并将重磅推出腾讯云 CL
云存储
2023/03/30
2820
【CLS数据淘金第五期】 云产品 CLB 日志抽样,独家发布
WAF防火墙数据接入腾讯云ES最佳实践(上)
本文描述问题及解决方法适用于 腾讯云 Elasticsearch Service(ES)。
岳涛
2023/08/09
1.4K2
WAF防火墙数据接入腾讯云ES最佳实践(上)
千万级日活量,斗鱼如何基于日志实现秒级监控告警?
「斗鱼」作为品类中的头部平台,斗鱼直播APP的日活用户量超千万量级,高峰时段有上万名主播同时在线开播。
日志服务CLS小助手
2022/02/23
1.7K0
「腾讯会议」:面对业务指数级增长如何高效运维?
在我们深入使用CLS 的过程中,CLS的性能和数据加工的简便性给我们留下了深刻印象。原来需要自建Kafka和Flink才能完成的需求现在CLS两分钟就可以搞定了!
日志服务CLS小助手
2022/01/23
1.3K1
【日志服务CLS】Nginx日志数据全方位大解析
Nginx 是一个高性能的HTTP和反向代理web服务器,透过Nginx日志可以挖掘非常大的价值,比如诊断调优网站,监控网站稳定性,运营数据统计等。今天我们一起通过日志服务CLS,看看如何对Nginx做全方位日志数据挖掘。
日志服务CLS小助手
2021/12/01
8160
腾讯云CLS日志服务应用
*LogListener: 是腾讯云日志服务提供的日志采集 Agent,通过在服务器上安装loglistener可以实时采集指定路径上的日志,并对日志原始数据进行结构化后推送至日志服务中枢。
来自青铜段位的咸鱼
2018/11/26
3.9K0
腾讯云CLS日志服务应用
对象存储COS访问日志场景体验
COS访问日志记录了用户对COS资源的访问信息,包括上传对象(PUT),删除对象(DELETE),访问对象(GET)等。通过分析访问日志,用户可以完成审计回溯,如删除资源记录,同时也可以完成资源热门相关的资源统计等能力。本次我们就介绍下COS访问日志常见玩法。
日志服务CLS小助手
2021/11/29
7920
10倍流量突增,智能门店行业引领者—「非码」如何灵活运维?
非码是行业领先的智能门店提供商,服务于行业内众多一线品牌,对服务稳定性、问题处理及时性都有极高的要求,日志是运维环节中重要的一环。
日志服务CLS小助手
2022/01/17
7760
【日志服务CLS】HTTP code 304引申出来的故事
公司开发环境内部开发。路由器做了设置只允许访问特定资源网站。自从做了限制后内网隔离网络环境出现特定资源pending现象。一直也没有做深入的研究。因为同一内网vlan中有能上网的小伙伴。一般情况下他手动去刷新一下就好了。最近频繁出现。记录一下排查问题过程和腾讯云cls日志服务的使用过程。
对你无可奈何
2021/04/21
1.1K1
【日志服务CLS】Nginx 访问日志接入腾讯云日志服务
日志服务(Cloud Log Service,CLS)是腾讯云提供的一站式日志服务平台,提供了从日志采集、日志存储到日志检索,图表分析、监控告警、日志投递等多项服务,协助用户通过日志来解决业务运维、服务监控、日志审计等场景问题。
远哥制造
2021/05/06
5.9K1
【日志服务CLS】Nginx 访问日志接入腾讯云日志服务
【日志服务CLS】容器服务TKE审计日志运维场景体验
以前,排查这些问题,对客户来说并不容易。生产环境中的Kubernetes集群通常是一个相当复杂的系统,底层是各种异构的主机、网络、存储等云基础设施,上层承载着大量的应用负载,中间运行着各种原生(例如:Scheduler、Kubelet)和第三方(例如:各种Operator)的组件,负责对基础设施和应用进行管理和调度; 此外不同角色的人员频繁地在集群上进行部署应用、添加节点等各种操作。
日志服务CLS小助手
2021/12/03
1.5K0
腾讯云容器服务日志采集最佳实践
roc,腾讯高级工程师,Kubernetes Contributor,热爱开源,专注云原生领域。目前主要负责腾讯云TKE 的售中、售后的技术支持,根据客户需求输出合理技术方案与最佳实践,为客户业务保驾护航。 概述 本文介绍如何利用腾讯云容器服务 TKE 的日志功能对日志进行采集、存储与查询,分析各种功能用法与场景,给出一些最佳实践建议。 注: 本文仅适用于 TKE 集群。 如何快速上手 TKE 的日志功能入口在 集群运维-日志规则,更多关于如何为 TKE 集群启用日志采集与基础用法,参考TKE日志采集
腾讯云原生
2020/10/21
2.3K0
【日志服务CLS】全新Grafana数据源,一键安装,功能升级
Grafana是一个开源的可视化工具,同时也是一个时序性统计和分析监控平台,提供了多种数据源的对接,拥有丰富的图表和美观的布局展示,功能齐全的仪表盘和图形编辑器。
日志服务CLS小助手
2022/04/01
9270
CDN访问日志质量性能监控与运营统计分析最佳实践
CDN是非常重要的互联网基础设施,用户可以通过CDN,快速的访问网络中各种图片,视频等资源。在访问过程中,CDN会产生大量的日志数据,通过对CDN访问日志的分析,可以挖掘出大量有用的信息用于CDN质量和性能的分析,错误诊断,客户端分布, 用户行为分析。
日志服务CLS小助手
2021/11/19
1.1K0
【日志服务CLS】一键开启腾讯电子签的高效运维之旅
电子签业务快速起量,服务日志的倍速增长使得我们在性能优化、问题定位时需投入大量的精力维护原有的ELK架构。
日志服务CLS小助手
2021/12/20
9830
CLB运维&运营最佳实践 ---访问日志大洞察
负载均衡CLB作为千亿QPS的网关产品,精细化运营十分重要,而CLB访问日志则是其中的利器。
日志服务CLS小助手
2021/11/17
1.5K0
推荐阅读
相关推荐
IEG Global x CLS:「游戏出海 -日志合规」史上最全案例教程
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验