简介
通过本篇实践,您可以详细的了解如下内容:
监控告警配置案例
您也可通过以下 Demo,快速体验使用 CLS 分析 CSS。
功能优势
日志实时分析:
CLS 通过对云直播日志的实时采集、投递,实现对日志数据的快速检索、分析及存储,通过对日志数据的挖掘来实现数据驱动运维及运营,从而快速准确地制定运营策略。
分析报表开箱即用:
CLS 为 CSS 云直播日志分析场景提供了开箱即用的访问分析仪表盘,仪表中包含 CSS 用户访问分布、流量分析、请求错误率分析、请求耗时分析以及资源分布等内容。而在传统 CSS 日志分析场景中,需下载离线日志,再上传至数据仓库,然后在数据仓库进行一系列的数据清洗和数据模型定义。这一过程繁琐又消耗较多人力成本。
采集 CSS 云直播日志
查看 CSS 云直播分析仪表盘
CSS 云直播日志分析仪表盘:可视化展示 CSS 的用户访问情况(如用户 UV、PV、用户访问地理分布等)和请求质量情况(如错误率、延时等),助力用户运营和运维排障场景。

检索分析 CSS 云直播日志

2. 单击检索后将跳转至日志检索页,即可检索分析日志。

日志字段说明
推流日志
顺序 | 日志字段 | 说明 |
1 | time | 请求时间 |
2 | client_ip | 客户端 IP |
3 | host | 被访问的域名 |
4 | url | URL |
5 | size | 推流字节数大小 |
6 | country_id | country_id |
7 | prov | 省份 |
8 | isp | 运营商 |
9 | streamname | 流 ID |
10 | node_ip | 节点 IP |
11 | server_region | 服务器地区 |
12 | server_country | 服务器国家 |
播放日志
顺序 | 日志字段 | 说明 |
1 | type | 播放类型,lvb 代表标准直播,leb 代表快直播 |
2 | time | 请求时间 |
3 | client_ip | 客户端 IP |
4 | host | 被访问的域名 |
5 | url | URL |
6 | size | 本次访问字节数大小 |
7 | country_id | country_id |
8 | prov | 省份 |
9 | isp | 运营商 |
10 | http_code | HTTP 状态码 |
11 | referer | Referer 信息 |
12 | process_time | 处理时长(单位:毫秒) |
13 | ua | User - Agent 信息 |
14 | range | Range 参数 |
15 | method | HTTP Method |
16 | streamname | 流 ID |
17 | hit | 缓存 HIT/MISS |
18 | node_ip | 节点 IP(因无法获取部分 CDN 集群节点 IP,此字段可能为空) |
19 | server_region | 服务器地区 |
20 | server_country | 服务器国家 |
21 | connect_fd | connect_fd(连接端口号) |
22 | lost_rate | 丢包率,仅 type=leb 时才有值 |
23 | rtt | rtt,仅 type=leb 时才有值 |
注意:
日志中特殊状态码说明如下:
0:连接建立。
4:请求超时,鉴权超时或者响应超时。
5:回源断连接或者流销毁。
6:客户端断连接。
监控告警案例
您可以基于 CSS 日志配置异常监控告警,实时监控 CSS 访问流量中发生的异常。以下提供了两个案例。
案例1:针对当 P99的延时大于100ms进行告警,并且在告警信息中展示受影响域名、url、client_ip,以便快速判断错误情况。
1. 登录 日志服务控制台,并进入 监控告警 > 告警策略 管理页面,单击新建,进入告警策略创建页。
2. 在告警策略页中,配置如下内容。
基本信息:
告警名称:CSS 访问延迟告警。
启用状态:启用
监控对象:选中创建的 CSS 日志主题。
监控任务:
执行语句:输入以下语句,时间范围选择15分钟,统计近15分钟内的99%延时。
type:* | select approx_percentile(request_time, 0.99) as p99
触发条件:配置如下,即99%延时大于100ms 时,满足告警条件。
$1.p99 > 100
执行周期:固定频率,每1分钟执行一次。
多维分析:在告警信息中展示受影响的域名、客户端 IP、url,帮助开发人员快速定位问题。

通知渠道组:通过关联通知渠道组,设置发送通知的方式及对象,支持短信、邮件、电话、微信、企业微信、钉钉、飞书、自定义接口回调(webhook)等通知方式。详情请参见 管理通知渠道组。
案例2:资源访问错误率或延迟超过一定阈值时,触发告警通知。
执行语句:
输入语句1,时间范围选择近15分钟。
type:* | select url_extract_path(url) as url_path , round(count_if(try_cast( "http_code" as bigint) >= 400)*100.0/count(*),2) as "Request Error Rate (%)" group by "url_path" order by "Request Error Rate (%)" desc limit 100
输入语句2,时间范围选择近15分钟。
type:* | select url_extract_path(url) as url_path , round(avg( "process_time" ), 1) as "Avg. processing time (ms)" group by "url_path" order by "Avg. processing time (ms)" desc limit 100
触发条件:
根据业务情况自行定义,如案例设置资源访问的错误率大于3%或耗时超过500ms时,触发告警。

多维分析:
展示错误率超过阈值的资源 URL。
type:* | select url_extract_path(url) as url_path , round(count_if(try_cast( "http_code" as bigint) >= 400)*100.0/count(*),2) as "Request Error Rate (%)" group by "url_path" having "Request Error Rate (%)" >=3 order by "Request Error Rate (%)" desc limit 100
展示耗时超过阈值的资源 URL。
type:* | select url_extract_path(url) as url_path , round(avg( "process_time" ), 1) as "Avg. processing time (ms)" group by "url_path" having "Avg. processing time (ms)" >=500 order by "Avg. processing time (ms)" desc limit 100
