前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据埋点|从隐私保护浅谈数据生命周期,初识数据埋点

数据埋点|从隐私保护浅谈数据生命周期,初识数据埋点

作者头像
数据万花筒
发布2021-01-20 16:13:04
1.7K0
发布2021-01-20 16:13:04
举报
文章被收录于专栏:数据万花筒数据万花筒

你是否和我有同样的感觉,不知道从什么时候开始我们的隐私已经彻彻底底地暴露,在互联网场景下我们就是在裸奔。列举几个情景,你应该也会感同身受。

想必在某宝上搜索过自己心仪的商品后,推荐页面就会弹出各种各样与搜索商品相似的推荐;更有甚者在某些APP上看视频或浏览误触了某辅导的小广告,除了收到各式各样中小学课程推荐,接着就会接到各式各样的推销电话。

上述情景的发生,是由于各类手机APP通过数据埋点技术、数据上报技术采集了我们的行为信息,基于行为信息对于我们的年龄,职业,需求等作出预判,从而推荐我们相应的商品。那么各类APP都会采集用户的哪些信息,这些信息是如何通过数据埋点技术被采集到,又是如何进行数据上报的呢?

作为数据分析师或者是即将转行数据分析的你,有必要系统地了解下从用户行为到用户数据的整个流程,为之后数据埋点的工作做一个简单的铺垫。

01

从数据产生流程浅谈数据埋点

互联网的海量数据是通过数据埋点技术采集用户行为数据而产生的,每当用户在客户端发生一个行为操作,这个操作行为会被对应页面位置背后的代码收集到,这就是数据埋点技术;采集到的数据通过SDK(Software Development Kit)上报,这就是数据技术上报技术;上报后的数据通过一些系列处理流程入库到数仓形成海量的用户数据。

以上的过程就是用户数据产生的过程,这个过程中涉及到三个重要的主体,分别是用户,客户端和服务器。我们需要关注三个问题:第一,是用户的哪些行为会被采集到的,分别是在客户端还是在服务端被采集到;第二,实现这些用户数据采集的技术有哪些以及它们之间的异同;第三,采集到的这些用户数据之后是如何实现数据上报的。后面几节内容会一一介绍这三个问题,理解了这三个问题,对于数据分析师需要开展的数据埋点工作大有益处。

02

为什么需要数据埋点

说到这里,你肯定已经理解了数据产生的流程,但为什么要进行数据埋点获取用户行为习惯呢?当然是要对业务进行数据监控,对产品进行优化,对用户进行精细化运营以实现盈利最大化。那如何实现呢?这就需要数据分析师上场对海量的用户数据进行分析,提出相应的方案。俗话说,“巧妇难无米之炊”,如果没有数据埋点获取海量数据,数据分析师这个“巧妇”就很难施展自己的才华了。所以数据埋点无论是对于数据分析师来说还是对于企业来说都极其重要,数据埋点埋得好能够方便分析师们分析业务问题快速得出结论,同时辅助业务进行决策,以实现业务KPI,形成闭环。

03

网站和APP采集能采集哪些用户数据

网站或者APP能够采集到的用户的四类信息,第一是设备的硬件能力,例如设备品牌,型号,主板,CPU,屏幕分辨率等等信息;第二是软件能力,就算没有点击网页或者APP,像横竖屏,截屏,摇一摇等操作也会被记录下来;第三是数据权限,新注册某款软件时,对于相册、通讯录、GPS等比较私密的信息一般会跳出是否授权的操作选项,如果用户同意授权,那么网页或者APP就能够采集到的这些信息;第四是用户行为,用户只要对网页或者APP进行操作,行为都会被记录下来。

虽然网站或APP在用户授权的情况下可以采集到用户的各类数据,但是作为数据分析师在做数据埋点文档的时候,并不需要追求大而全,可以根据业务提的需求文档对相应的行为进行埋点记录即可。

04

数据埋点的分类及其方式

数据埋点的方法根据其位置分类,可分为前端埋点和后端埋点。 前端埋点通过SDK进行数据采集,为了减少移动端的数据流量,通常对采集的数据进行压缩、暂存,打包上报。对于那些不需要实时上报的的事件,通常只在wifi环境下上报,因此会出现上报的延迟与漏报的现象。 而后端采集数据则是通过调用API接口采集信息,使用内网传输信息,基本不会因为网络原因丢失数据,所以后端传输的数据可以非常真实地反应用户行为。 https://zhuanlan.zhihu.com/p/102258485

而前端埋点又可以视其自动化程度,分为代码埋点(手动埋点)、全埋点(无埋点或全自动媒体)以及可视化埋点。

各类埋点的定义、异同、优点、缺点以及适用场景都已经总结如下表。

05

主流的数据上报技术

埋点能够获取用户设备、行为等方面的信息,获取信息后需要进行上报,然后入库储存,最后数据分析师才能拿到这些数据进行分析。说到这里,为大家介绍下主流的数据上报技术。目前,主流的数据上报技术有客户端主动上报以及服务端,和前端埋点及后端埋点遥相呼应。

客户端上报

手机里装的APP我们可以认为它们是客户端,用户对客户端进行操作后,客户端通过网络发送HTTP请求给服务端,同时将数据上报给服务端。如果用户每操作一次,客户端就将数据上报一次,而一款产品的用户的数量级少说也是上万级别的,操作一次上报一次无疑对服务器的压力是极大的。所以,客户端会对用户数据进行积攒,我们称这个积攒下来的数据为数据包,在某个时间点客户端统一将数据包上传给服务器。

因为用户的操作节点和数据的上报节点并不是时时同步的,所以客户端的这种上报方式我们称为异步上报。而整个上报的过程都是需要网络的,在极端情况下,客户端正准备上报数据包,但这时候突然断网,如果网络没有重连机制或者一直连不上网,这个数据包就会丢失,我们称作为丢包。这也从一定层面解释了客户端上报的数据可能因为丢包等情况的存在不一定那么准确。

服务端获取

在网页中,用户首次看到的一切,都是从服务器返回的(APP 不同,因为部分界面和逻辑已经安装在了用户的设备上,展示这部分界面不需要网络请求)。那么服务器在应答你的客户端请求的时候,也能拿到一些基本信息,比如你的浏览器类型、版本号、屏幕分辨率、IP 地址等等 http://www.woshipm.com/data-analysis/3195604.html

06

总结

回到文章开头的小情景,对于隐私保护你有新的想法了嘛?我们目前能做的就是对于私密信息的授权要谨慎,不要再互联网上填写个人信息,特别是上传身份证等等。

讲完数据埋点的相关背景知识,想要入门数据分析的你对于数据埋点又有了新的认识。那么如何选择前端埋点还是后端埋点,如何做好一份数据埋点文档也是数据分析师必备的技能,给10个再看,我们更新下一篇教会你做一份优质的数据埋点文档的方法论!

参考文章

http://www.woshipm.com/data-analysis/3195604.html

http://www.woshipm.com/data-analysis/665420.html

https://zhuanlan.zhihu.com/p/65834362

https://zhuanlan.zhihu.com/p/102258485

https://www.jianshu.com/p/6f5d60b04b93

https://zhuanlan.zhihu.com/p/40985361

https://cloud.tencent.com/developer/news/473370

https://www.sensorsdata.cn/blog/shu-ju-jie-ru-yu-mai-dian/

https://zhuanlan.zhihu.com/p/41084975

https://tech.meituan.com/2017/03/02/mt-mobile-analytics-practice.html

https://zhuanlan.zhihu.com/p/58868009

https://www.zhihu.com/question/36411025/answer/1264259674

https://www.zhihu.com/market/paid_column/1226257638931050496/section/1226266001714663424

https://zhuanlan.zhihu.com/p/260472122

http://www.woshipm.com/data-analysis/872543.html

如果您觉得我们的文章还不错,请分享,点赞,再看,一键三连!!!

END

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-01-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据万花筒 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
智能数据分析
腾讯云智能数据分析 Intellectual Data Analysis 是新一代云原生大数据敏捷分析解决方案。产品具备存算分离、动态扩缩容等特点,并内置事件、转化、留存、行为路径等成熟分析模型,提供高可用、低成本的全场景敏捷分析服务,可同时满足数据分析师、数据开发工程师和业务决策人的关键分析需求,帮助企业大幅降低数据分析成本,支撑业务更高效决策。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档