抽样数据统计

最近更新时间:2024-09-12 17:21:01

我的收藏
EdgeOne 数据分析模块通过深入分析 EdgeOne 产品持续记录的海量日志数据,帮助用户分析流量特征。为了优化用户体验,EdgeOne 数据分析中引入了抽样数据统计技术,以确保即使在处理大量数据时,也能保持查询的准确性和及时性。

什么是抽样数据统计

数据分析中,抽样是指从全部数据中选取一个代表性的子集进行分析,以便从中提取有价值的信息。例如,进行社会调查时,研究者无法对每个人进行调查,因此他们会挑选一部分人群作为代表样本,用这些样本的回答来反映整个人群的倾向。

什么时候 EdgeOne 会应用抽样数据统计

EdgeOne 运用动态抽样技术来适应不同用户的日志数据量级,确保数据分析的准确性和效率。在以下数据查询场景中,EdgeOne 相关页面所展示的数据可能会经过抽样处理。
指标分析页面 查询 L7 访问相关指标,且添加如下筛选条件时:状态码、运营商、省份、TLS 版本、URL Path、Referer、资源类型、设备类型、浏览器类型、系统类型、IP 版本、客户端 IP。这是因为当用户在查询整体流量时,我们会为用户提供提前聚合好的统计表,帮助用户快速得到精确的统计结果。但是当用户需要按照某些特定维度进行下钻分析时,查询就会切换到体量庞大的多维统计表,此时便需要通过抽样机制来减少底层数据扫描量,为用户提供快速的查询体验。
指标分析页面 查询 L7 防护相关指标或在 Web 安全分析页面进行统计分析或查看样本日志时,如果查询的时间范围内发生了大规模的 CC 攻击,您看到的数据也可能是抽样结果。在这种情况下,可能会存在无法检索到特定请求 ID 对应日志的情况。
说明:
请注意,EdgeOne 会根据平台日志数据的规模和用户的实际需求,不断优化和调整抽样策略。如果您对 EdgeOne 提供的数据分析查询结果有任何疑问,欢迎随时 联系我们 的支持团队。

对使用 EdgeOne 是否有影响

抽样统计技术仅应用于数据分析模块,不会对站点加速、四层代理或安全防护等其他服务配置产生任何影响。通过抽样数据统计技术,EdgeOne 能够更快速地为您提供统计分析结果,协助您在页面内能够获得查询结果的同时提升查询效率。这确保了即使面对海量数据,EdgeOne 也能保持查询的响应速度和准确性。

如何查询全量数据

如果您的业务需求需要对全量日志数据进行深入分析,我们推荐您使用 EdgeOne 的 实时日志推送 功能。实时日志推送可以将详尽的完整日志数据转存到您指定的日志分析系统中(如腾讯云 CLS、第三方日志解决方案或自建的 ELK 栈),您可以通过获取全量数据来进行精细的数据处理。通过实时日志功能,您可以确保在需要更高数据精度的场景中,获得更加准确的数据分析结果,从而为您的业务决策提供更加准确的数据支持。

了解更多

抽样数据统计的工作原理

抽样策略

EdgeOne 采用动态分级策略。该策略会周期性分析您的域名请求量级与对应的查询性能,来判定您的域名是否符合抽样条件。当抽样系统判定您的域名符合抽样条件时,会根据判定周期内的请求量级大小从 10%、1%、0.1%、0.01% 这 4 种抽样比例为您选取合适的抽样等级,各抽样比例的触发规则如下:
10%:日均请求量级达 1000 万次以上;
1%:日均请求量级达 1 亿次以上;
0.1%:日均请求量级达 10 亿次以上;
0.01%:日均请求量级达 100 亿次以上。
在触发抽样后,您的抽样等级并非是一成不变的。若您的域名请求量级持续上升,EdgeOne 会相应地升级您的抽样等级,采取更低的抽样比例;若您的域名请求量级持续下降,EdgeOne 会相应地下降您的抽样等级,采取更高的抽样比例,甚至为您取消抽样机制。

数据代表性

EdgeOne 会为您的每条请求日志提供唯一标识(Request ID),抽样系统会基于该唯一标识对您的数据进行抽样分析,以保证抽样因子的随机性。经过我们的测试,当您需要分析的特征在整体数据中占比较高时,采用抽样分析可以为您提供快速且准确的结果。但我们也需要指出,当您需要分析的特征在整体数据中占比较小时,由于样本数较少,抽样分析的结果可能会偏大或偏小。
举例说明,您有量级为 10000 的数据集,该数据集包含 3 个 URL Path A、B、C,其数量分布分别为 7000(70%)、2900(29%)、100(1%),在最理想的情况下,经过 10% 的抽样后,URL Path A、B、C 的样本数分别为 700、290、10,其中,由于 URL C 对应的样本数太少,基于样本估算总体的准确性将大幅降低,此时您对 URL C 进行下钻分析时的结果可能不符合预期。