首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >5.1、人的唯一性识别

5.1、人的唯一性识别

作者头像
GA小站
发布2019-11-07 15:09:09
2.3K0
发布2019-11-07 15:09:09
举报
文章被收录于专栏:GA小站GA小站

随着互联网的广泛普及,数以亿计网民的用户数据和网络行为数据早已成为最宝贵的资源,企业通过五花八门的各种手段去识别用户,了解网民的行为和隐私数据,用于广告投递、用户兴趣分析等,进而作为决策的依据,不同的设备终端识别的人方式不同,基本原则都是通过尽量通过各种唯一的ID去作为人的唯一标识,具体如下表:

终端

识别方式

主流方式

Web

IP、MAC地址、Cookie、UserID

Cookie

Wap/H5

IP、MAC地址、Cookie、浏览器指纹

Cookie

IOS端

IMEI、UDID、UUID、OPEN-UDID 、MAC、IDFV、IDFA

IDFA

Android端

IMEI、MAC、ADID、DEVICE_ID,ADDROID_ID……

IMEI

OTT

基于IOS或Android,声纹

IDFA/IMEI

(1) Web

Web是网络最早的终端,早期的识别是基于有什么,能获取到什么?

IP

IP地址是最容易获取的信息,任何的Web日志中均会包含。IP的全称是Internet Protocol,中文名为互联网协议地址,是分配给用户上网使用的网际协议 的设备的数字标签。常见的IP地址分为IPv4和IPv6与两大类。

IP的唯一性使得曾被作为用户的唯一标识,但由于后来网络环境的复杂,局限性也就越来越明显,使得IP唯一标识的特征被弱化,如伪IP、代理、动态IP、IP偏移、局域网共享同一公网IP出口……这些情况都会影响基于IP来识别用户的准确性,所以IP识别用户的准确性比较低,目前一般不会直接采用IP来识别用户。另外,各国政府立法将IP作为PII信息使得获取这个信息变得很敏感。

目前有些监测分析工具仍然在报告会提供IP维度的数据,如百度统计,但其识别用户方法不是通过IP,而是根据访客的访问设备、系统环境、cookie等参数生成的一个用于识别唯一访客的标记,提供IP维度的数据只是因为国内用户的喜欢使用IP和这个维度。

MAC网卡

MAC网卡信息, mac地址都是由IEEE的注册管理机构RA分配给厂商,分配时只分配前三个字节,后三个字节由各厂商自行分配。mac地址由IEEE组织统一管理,所有合法的mac地址都可以通过IEEE官网查询到厂商。理论上是唯一,但由于供应商有意或错误地将相同的MAC地址分配给多个设备,MAC是可以被修改的,所以MAC不适合作为唯一标识。

Cookie

Cookie,Cookie是能够让网站服务器可以从客户端存储或读取少量数据的一种技术,一般以小文件的形式存储,可以实现个人信息的记录,确保web的访问是连续性的。

因为HTTP协议是无状态的,即服务器不知道用户上一次做了什么,你访问A页面后访问B页面,服务器是不知道是同一个人,由于HTTP的无状态性,不通过额外的手段,服务器并不知道用户到底买了什么。所以Cookie就是用来绕开HTTP的无状态性的“额外手段”之一。服务器可以设置或读取Cookies中包含信息,借此维护用户跟服务器会话中的状态,如下图:

Cookie可以分为Http Cookie、Flash Cookie、EverCookie。

Http Cookie

这个就是我们常说的Cookie了。

Flash Cookie

FlashCookie可以跨浏览器共享,不管用户计算机上安装了多少个浏览器,FlashCookie都能够使所有得浏览器共用一个Cookie。Flash Cookie可以容纳最多10万字节的数据,远远超过HTTP Cookie的4096字节。所有浏览器都提供了清除HTTP Cookie的快捷方式,但FlashCookie没有这种快捷方式,并且其保存位置较为隐蔽,一般网民难以将其清除。

FlashCookie是由FlashPlayer控制的客户端共享存储技术,这个是Adobe开发的,如果这个成主流,那Adobe将拥有最精准的用户识别体系,但由于众多的浏览器厂商将Flash摒弃,比如苹果的全系列产品都不支持 flash,以至于2012年开始 adobe 已经彻底放弃了移动端 flash 的更新,目前这种方式已经不适用。

EverCookie

Evercookie是一个Javascript API,可以在浏览器中生成极其持久的cookie。Evercookie是通过将cookie数据存储在尽可能多的浏览器存储机制上来实现的。,如果用户删除其中某几处的Cookie,只要一个仍然完好无损, Evercookie仍然可以恢复Cookie,如果开启本地共享对象(Local Shared Objects),Evercookie甚至可以跨浏览器传播。

EverCookie 看起来很完美,但依旧存在诸多缺陷,如请求太多,影响性能、浏览器厂家在屏蔽……

Cookie还有第一方Cookie和第三方Cookie之分。

第一方Cookie

第一方cookie就是直接来自你正在访问的站点,比如我访问www.ichdata.com,那么这个主域下面的cookie都是第一方cookie

第一方Cookie的优势是接受程度高,但用户还是可以设置屏蔽的。

第三方cookie

第三方cookie是指非访问站点所生产的cookie,可能在访问的过程中加载了第三方的跟踪代码,资源,由第三方站点生产的cookie,比如你访问今日头条,在上面看到淘宝的广告,那么淘宝就有可能你访问的时候添加cookie,这个就是第三方广告Cookie。

第三方Cookie能用于跨域跟踪,通常用在第三方广告的转化跟踪

UserID

基于用户ID的用户识别是最为准确,因为一般情况下用户不同共享他的用户ID,所以我们可以认为数据中的userid唯一地指向该用户,几乎不存在偏差。当然要使用用户ID来识别用户是需要一定的前提条件的:网站必须是提供用户注册登录服务的,并且可以通过一些手段在点击流数据中记录userid。

但用户未登录的时候就是识别不了的,只能通过Cookie去识别,目前Google Analytics App+Web Property的能够实现App和Web的数据打通跟踪就是基于UserID。

对于一个需要用户ID注册登录的网站来说,用户唯一标识符的选择可以遵从以下顺序:当用户注册登录时以userid为准,当用户在未登录状态浏览时以用户的cookie为准,当用户未登录且cookie无法获取的情况下以IP+Agent为准;这样就能从最大程度上识别唯一用户。

Cookie可以说是用户识别的核心,在网络上,Cookie 是识别用户的基础,无数的广告投放平台,通过 Cookie 来记录用户的 ID,监测用户看过什么广告、点过什么广告、看过哪些网页,通过这些信息推算用户的兴趣爱好,进而再推送更加精准的广告,但目前也面临各种问题,如浏览器无痕浏览,ITP规则的升级,欧洲GDPR的实施……对现有的以Cookie作为用户标识的跟踪体系造成了巨大的挑战。

浏览器无痕浏览

为了防止用户隐私被跟踪,保护用户网络隐私,一些主流浏览器版本都已经设置了Do not Track不要跟踪这一选项。当用户提出启用“请勿追踪”功能后,具有“请勿追踪”功能的浏览器会在http数据传输中添加一个“头信息”(headers),这个头信息向商业网站的服务器表明用户不希望被追踪。这样,遵守该规则的网站就不会追踪用户的个人信息来用于更精准的在线广告。

就是浏览器禁止第三方Cookie的功能,你只要打开就可以不被跟踪了。

ITP规则的升级

ITP,全称为Intelligent Tracking Prevention,中文译为智能反追踪技术,是苹果早在其2017年的世界开发者大会WWDC上提出的一项Safari的新功能。默认情况下,对于升级到Safari 11版本的用户,ITP会阻止或限制访问许多用于广告测量和个性化的第三方cookie,无论是电脑端还是手机端,这项新功能旨在降低第三方通过cookie和其他方法跟踪网络用户的能力。

ITP2.1:所有的Cookie的保质期都只有7天。

ITP2.2:苹果Safari团队WebKit发布了ITP 2.2。在iOS 12.3的beta版和macOS Mojave 10.14.5中已实装。在上一版本中Cookie的寿命减少到7天,而在2.2版本中更是减少到了24小时。

欧洲GDPR的实施

GDPR全称General Data Protection Regulation,翻译过来就是一般数据保护条例,顾名思义大家也都知道这是保护用户数据的。这是世界范围内最严格的用户数据保护条款。GDPR 的目标是加强对欧盟公民的个人数据保护, 无论它们驻留在欧盟还是其他地方。根据RISJ的研究报告,自欧盟《通用数据保护条例(GDPR)》出台以来,欧洲新闻网站的第三方cookie数量下降了22%。

(2)Wap

在 PC 时代,追踪用户身份技术方案多,但是随着移动互联网大潮的到来,用户转移到WAP和APP上,WAP仍然沿用WEB的识别方式,还多一种识别方式,那就是浏览器指纹,Web端也有应用,但主要在Wap端,浏览器中有多个特征信息,将这些信息综合分析计算后,可对客户端进行唯一性识别,进而锁定、追踪。

浏览器指纹分为普通指纹、高级指纹、硬件指纹和综合指纹。

基本指纹

基本指纹是指浏览器具有的特征标识,如浏览器中的插件,字体,UA头文件,位置设置,时区设置,防追踪选项是否打开,是否开启了广告拦截等可以标识用户的信息,这些我们称之为基本指纹。

高级指纹

高级指纹是指通过H5的高级技术来实现的,利用硬件和软件的差异生成不同的哈希值作为标识,如Canvas和AudioContext。

Canvas的原理是相同的HTML5 Canvas元素绘制操作,在不同操作系统、不同浏览器上,产生的图片内容不完全相同,也就是基于各种因素生成一个唯一的对应的hash值,这个就是用户标识,你可以访问https://browserleaks.com/canvas 去看看自己的标识。

AudioContext指纹基本原理:主机或浏览器硬件或软件的细微差别,导致音频信号的处理上的差异,相同器上的同款浏览器产生相同的音频输出,不同机器或不同浏览器产生的音频输出会存在差异。

硬件指纹

硬件指纹就是获取硬件的一些信息作为用户特征,如CPU,GPU,摄像头,GPS……逻辑类似基本指纹,但硬件的重复率较高。

综合指纹

综合指纹就是综合应用前面的几种指纹技术去匹配或生成唯一的标识符,降低重复率。

目前Canvas是使用最多的,很多网站在使用的,但是由于影响指纹的参数有很多,所以稍微有一点差异会导致hash值不同,另一个就是目前有些浏览器已经关注到Canvas隐私保护问题,已经屏蔽了Canvas,使用的时候需要用户授权。

所以目前并不能替代Cookie,可以和Cookie结合使用,如果用户屏蔽了Cookie,那么用Canvas指纹。

(3)IOS端

IOS是一个封闭的生态环境,你能用什么ID去作为唯一标识符取决于苹果开放了什么。

IMEI

IMEI,全称是International Mobile Equipment Identity,中文名为国际移动设备识别码,即通常所说的手机序列号、手机“串号”,用于在移动电话网络中识别每一部独立的手机等移动通信设备,相当于移动电话的身份证。早期的苹果是可以通过IMEI作为用户标识的,但是在IOS5以后就不是了,曾经发生过有手机厂商将整批手机都是用同一个IMEI的的情况,现在已经获取不到了。

UDID

UDID,全称Unique Device Identifier的缩写,中文意思是设备唯一标识,它由40个字符的字母和数字组成,用来区别每一个唯一的iOS设备,UDID是苹果给每一台设备配发的唯一标识,这些编码看起来是随机的,但实际上是跟硬件设备特点相关联的。于2013年5月禁用。

UUID

UUID,全称是Universally Unique Identifier,中文意思是通用唯一识别码.UUID的目的,是让分布式系统中的所有元素,都能有唯一的辨识码,但是在用户重装或升级的时候UUID会不一样,所以是不适合。

Open-UDID

Open-UDID,设备的识别码,每台iOS设备的Open-UDID是通过第一个带有Open-UDID SDK包的App生成,不同APP之前可以通过剪贴板复制黏贴传递。

MAC

MAC,硬件标识符,MAC地址在网络上用来区分设备的唯一性,接入网络的设备都有一个MAC地址,他们肯定都是不同的,是唯一的。一部iPhone上可能有多个MAC地址,包括WiFi mac地址和蓝牙mac地址。iOS 7 之后被禁止,13年9月份iOS7的发布,苹果又采取别的措施,获取到的Mac地址在iOS7上都是相同的值,并且对剪贴板进行限制,同时禁止的还有Open-UDID。

IDFV

IDFV,全称Identifier For Vendor,中文名为应用开发商标识符,根据vendor的值,如果vendor相同,则返回同一字符串;如果vendor不同,则返回不同的字符串。Vender是指应用提供商,就是开发者。适用于对内分析用户在应用内的行为等。

IDFA

IDFA,全称Identifier For Advertising,iOS独有的广告标识符。在iOS 6 时面世,可以监控广告效果,同时保证用户设备不被APP追踪的折中方案。这个值不是唯一确定的!也就是说用户可以根据自己的意愿来还原或者禁止获取这个值。如系统重置、在设置里还原广告标识符;用户可以在设置里打开“限制广告跟踪”。

优点

缺点

被禁时间

IMEI

用户隐私问题

2013年5月

UDID

唯一识别码

用户隐私问题

2013年5月

UUID

会重新生成

Open-UDID

会重新生成

2013年9月

MAC

唯一识别码

用户隐私问题

2013年9月

IDFV

会被重置

IDFA

可能获取不到

目前IOS的用户识别是基于IDFA。

(4)Android端

Android的由于限制没有IOS的严格,所以各种ID都可以用,但是各个手机厂家做了深度的定制和优化,又有各种限制的存在,导致的麻烦不比IOS的少。

除了IMEI和MAC是跟IOS一样的原理,Android还提供有DEVICE_ID,ANDROID_ID,ADID。

DEVICE_ID

DEVICE_ID,Android系统为开发者提供的用于标识手机设备的串号,非手机设备不适用。

ANDROID_ID

ANDROID_ID在设备首次启动时,系统会随机生成一个64位的数字,并把这个数字以16进制字符串的形式保存下来,这个16进制的字符串就是ANDROID_ID。不同的设备,ANDROID_ID可能会相同;重置会导致ANDROID_ID不同。

ADID

ADID,谷歌对标苹果的IDFA的一个东西,但是需要结合Google的其他产品来使用,由于大陆地区使用不了,所以获取不到这个ID,这个ID对大陆地区的废的。

综上,Android主要使用的识别ID是IMEI。

(5)OTT

OTT全称是Over The Top,是指基于开放互联网的视频服务,终端可以是电视机、电脑、机顶盒等等,现阶段主要的就是电视了,OTT设备都有系统的,所以它能用什么识别取决于使用的系统。

另外,由于OTT设备上比较兴起的是语音交互,有些厂家就引申出声纹识别,通过用户的声音去识别,原理就是前面的高级指纹类似。

精准营销的基础是要能追踪、是被到个人用户,而人的唯一性识别是大数据精准营销的基础,试想一下,如果各个终端,用户的访问不同站点都是撕裂分割,打不通,那么广告如何推送给你想要的人呢?

原文地址:https://www.ichdata.com/docs/ga-practice-guide/chap5/human-uniqueness

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-11-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GA小站 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • (1) Web
    • IP
      • MAC网卡
        • Cookie
          • Http Cookie
          • Flash Cookie
          • EverCookie
          • 第一方Cookie
          • 第三方cookie
        • UserID
        • (2)Wap
          • 基本指纹
            • 高级指纹
              • 硬件指纹
                • 综合指纹
                  • 目前Canvas是使用最多的,很多网站在使用的,但是由于影响指纹的参数有很多,所以稍微有一点差异会导致hash值不同,另一个就是目前有些浏览器已经关注到Canvas隐私保护问题,已经屏蔽了Canvas,使用的时候需要用户授权。
                  • (3)IOS端
                  • IMEI
                    • UDID
                      • UUID
                        • Open-UDID
                          • MAC
                            • IDFV
                              • IDFA
                              • (4)Android端
                                • DEVICE_ID
                                  • ANDROID_ID
                                    • ADID
                                    • (5)OTT
                                    相关产品与服务
                                    领券
                                    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档