CDN 的数据分析功能通过深入分析海量日志数据,帮助用户分析流量特征。为了优化用户体验,数据分析中引入了抽样数据统计技术,以确保即使在处理大量数据时,也能保持查询的准确性和及时性。
什么是抽样数据统计
数据分析中,抽样是指从全部数据中选取一个代表性的子集进行分析,以便从中提取有价值的信息。例如,进行社会调查时,研究者无法对每个人进行调查,因此他们会挑选一部分人群作为代表样本,用这些样本的回答来反映整个人群的倾向。
什么指标会抽样统计
CDN运用动态抽样技术来适应不同用户的日志数据量级,确保数据分析的准确性和效率。数据分析 查询的 TOP URL、TOP 100 客户端IP、TOP 100 Referer、TOP UA ,当域名的QPS达到以下条件时,会采用抽样数据进行统计:
QPS 在 [1w, 10w),抽样比例为 10%
QPS 在 [10w, 100w),抽样比例为 1%
QPS 在 [100w, +∞),抽样比例为 0.1%
抽样策略按每5分钟粒度的数据判断QPS,若QPS达到上述条件,则触发抽样,否则不抽样。示例如下:
域名在00:01~00:05的5分钟日志数据QPS达到1万,则抽样10%,即从5分钟的样本抽取10%的日志条数计算。
域名在00:06~00:10采集的5分钟日志数据QPS达到10万,则抽样1%,即从5分钟的样本抽取1%的日志条数计算。
域名在00:11~00:15采集的5分钟日志数据QPS为5000,则不抽样,按全量请求日志计算。
说明:
如何使用全量统计
如果您的业务需求需要对全量日志数据进行深入分析,我们推荐您使用 CDN 的 实时日志 功能。实时日志推送可以将详尽的完整日志数据转存到您指定的日志分析系统中(如腾讯云 CLS),您可以通过获取全量数据来进行精细的数据处理。通过实时日志功能,您可以确保在需要更高数据精度的场景中,获得更加准确的数据分析结果,从而为您的业务决策提供更加准确的数据支持。
数据代表性说明
CDN 会为您的每条请求日志提供唯一标识(Request ID),抽样系统会基于该唯一标识对您的数据进行抽样分析,以保证抽样因子的随机性。经过我们的测试,当您需要分析的特征在整体数据中占比较高时,采用抽样分析可以为您提供快速且准确的结果。但我们也需要指出,当您需要分析的特征在整体数据中占比较小时,由于样本数较少,抽样分析的结果可能会偏大或偏小。
举例说明,您有日志量级为 10000 的数据集,该数据集包含 3 个 URL Path A、B、C,其数量分布分别为 7000(70%)、2900(29%)、100(1%),在最理想的情况下,经过 10% 的抽样后,URL Path A、B、C 的样本数分别为 700、290、10,其中,由于 URL C 对应的样本数太少,基于样本估算总体的准确性将大幅降低,此时您对 URL C 进行下钻分析时的结果可能不符合预期。