CSS 云直播日志分析

最近更新时间:2025-04-02 15:20:42

我的收藏

简介

通过本篇实践,您可以详细的了解如下内容:
您也可通过以下 Demo,快速体验使用 CLS 分析 CSS。

功能优势

日志实时分析:
CLS 通过对云直播日志的实时采集、投递,实现对日志数据的快速检索、分析及存储,通过对日志数据的挖掘来实现数据驱动运维及运营,从而快速准确地制定运营策略。
分析报表开箱即用:
CLS 为 CSS 云直播日志分析场景提供了开箱即用的访问分析仪表盘,仪表中包含 CSS 用户访问分布流量分析请求错误率分析请求耗时分析以及资源分布等内容。而在传统 CSS 日志分析场景中,需下载离线日志,再上传至数据仓库,然后在数据仓库进行一系列的数据清洗和数据模型定义。这一过程繁琐又消耗较多人力成本。

采集 CSS 云直播日志

查看 CSS 云直播分析仪表盘

完成 实时采集 CSS 云直播日志 后,CLS 提供开箱即用的预置仪表盘。
CSS 云直播日志分析仪表盘:可视化展示 CSS 的用户访问情况(如用户 UV、PV、用户访问地理分布等)和请求质量情况(如错误率、延时等),助力用户运营和运维排障场景。


检索分析 CSS 云直播日志

1. 完成日志采集后,进入 云直播控制台,选择业务监控 > 日志服务 > 实时日志分析,进入实时日志分析。查看日志主题,单击检索

2. 单击检索后将跳转至日志检索页,即可检索分析日志。


日志字段说明

推流日志
顺序
日志字段
说明
1
time
请求时间
2
client_ip
客户端 IP
3
host
被访问的域名
4
url
URL
5
size
推流字节数大小
6
country_id
country_id
7
prov
省份
8
isp
运营商
9
streamname
流 ID
10
node_ip
节点 IP
11
server_region
服务器地区
12
server_country
服务器国家
播放日志
顺序
日志字段
说明
1
type
播放类型,lvb 代表标准直播,leb 代表快直播
2
time
请求时间
3
client_ip
客户端 IP
4
host
被访问的域名
5
url
URL
6
size
本次访问字节数大小
7
country_id
country_id
8
prov
省份
9
isp
运营商
10
http_code
HTTP 状态码
11
referer
Referer 信息
12
process_time
处理时长(单位:毫秒)
13
ua
User - Agent 信息
14
range
Range 参数
15
method
HTTP Method
16
streamname
流 ID
17
hit
缓存 HIT/MISS
18
node_ip
节点 IP(因无法获取部分 CDN 集群节点 IP,此字段可能为空)
19
server_region
服务器地区
20
server_country
服务器国家
21
connect_fd
connect_fd(连接端口号)
22
lost_rate
丢包率,仅 type=leb 时才有值
23
rtt
rtt,仅 type=leb 时才有值
注意:
日志中特殊状态码说明如下:
0:连接建立。
4:请求超时,鉴权超时或者响应超时。
5:回源断连接或者流销毁。
6:客户端断连接。
国家(地区)、省份、运营商、服务器地区与国家(地区)映射可参见 日志下载

监控告警案例

您可以基于 CSS 日志配置异常监控告警,实时监控 CSS 访问流量中发生的异常。以下提供了两个案例。

案例1:针对当 P99的延时大于100ms进行告警,并且在告警信息中展示受影响域名、url、client_ip,以便快速判断错误情况。

1. 登录 日志服务控制台,并进入 监控告警 > 告警策略 管理页面,单击新建,进入告警策略创建页。
2. 在告警策略页中,配置如下内容。
基本信息
告警名称:CSS 访问延迟告警。
启用状态:启用
监控对象:选中创建的 CSS 日志主题。
监控任务
执行语句:输入以下语句,时间范围选择15分钟,统计近15分钟内的99%延时。
type:* | select approx_percentile(request_time, 0.99) as p99
触发条件:配置如下,即99%延时大于100ms 时,满足告警条件。
$1.p99 > 100
执行周期:固定频率,每1分钟执行一次。
多维分析:在告警信息中展示受影响的域名、客户端 IP、url,帮助开发人员快速定位问题。

通知渠道组:通过关联通知渠道组,设置发送通知的方式及对象,支持短信、邮件、电话、微信、企业微信、钉钉、飞书、自定义接口回调(webhook)等通知方式。详情请参见 管理通知渠道组

案例2:资源访问错误率或延迟超过一定阈值时,触发告警通知。

参考 案例1,登录 日志服务控制台,并进入 监控告警 > 告警策略 管理页面,单击新建,进入告警策略创建页。
执行语句
输入语句1,时间范围选择近15分钟。
type:* | select url_extract_path(url) as url_path , round(count_if(try_cast( "http_code" as bigint) >= 400)*100.0/count(*),2) as "Request Error Rate (%)" group by "url_path" order by "Request Error Rate (%)" desc limit 100
输入语句2,时间范围选择近15分钟。
type:* | select url_extract_path(url) as url_path , round(avg( "process_time" ), 1) as "Avg. processing time (ms)" group by "url_path" order by "Avg. processing time (ms)" desc limit 100
触发条件
根据业务情况自行定义,如案例设置资源访问的错误率大于3%或耗时超过500ms时,触发告警。

多维分析
展示错误率超过阈值的资源 URL。
type:* | select url_extract_path(url) as url_path , round(count_if(try_cast( "http_code" as bigint) >= 400)*100.0/count(*),2) as "Request Error Rate (%)" group by "url_path" having "Request Error Rate (%)" >=3 order by "Request Error Rate (%)" desc limit 100
展示耗时超过阈值的资源 URL。
type:* | select url_extract_path(url) as url_path , round(avg( "process_time" ), 1) as "Avg. processing time (ms)" group by "url_path" having "Avg. processing time (ms)" >=500 order by "Avg. processing time (ms)" desc limit 100