绿色网络副总经理毛俊:利用DPI技术支撑大数据应用

<数据猿导读>

绿色网络副总经理毛俊在2016年中国信息通信大数据大会上发表了以“利用DPI技术支撑大数据应用”为主题的演讲。他在会上主要介绍了两部分,第一部分是DPI技术原理,第二部分是在实践中运用这项技术支撑大数据的一些场景

数据猿报道,2016年4月20-21日,2016中国信息通信大数据大会在京召开。大会以“开放共享、转型创新”为主题,聚焦通信业大数据产业生态,邀请工信部、院士专家、三大运营商集团及省市大数据相关业务部门领导以及领先的大数据产业领军企业及应用单位代表出席,共同探讨通信业大数据发展带来的产业机遇和挑战。

本次大会主要针对前沿ICT技术与解决方案对运营商大数据能力建设的提升以及业务运营、架构的转型影响,通信业大数据的开放应用以及开放、共享、创新的产业生态等热点话题展开讨论,全景展现运营商大数据能力建设规划与开放应用策略。

本文由“135编辑器”提供技术支持

以下是数据猿现场独家直播“绿色网络副总经理毛俊”的发言实录:

毛俊:尊敬的各位来宾,尊敬的各位朋友,今天下午非常高兴有这个机会做这么一个交流。我交流的题目是基于DPI技术支撑大数据应用,我介绍分两部分,第一部分是DPI技术原理,第二部分讲一讲我们实践中运用这项技术支撑大数据的一些场景。

关于DPI,我先做一个科普的介绍。深度高检测,通过运营商或者管道里的网络设备,通过监听用户发送的数据包,来进行分析,他不关心你是DPI还是UDP,更关心你是微信还是微博。早期的话,在两三年以前,运营商用DPI设备属性,更多是用于内部运维,比如做网络设备的优化,流量的统计,安全的防护等等。最近两年,因为DPI用的越来越广,运营商也在大规模使用DPI技术,他也会把DPI采集到的网络行为数据作为大数据一个很重要的数据源来进行使用分析。

这里面我们就做了一个简单的例子,DPI的技术是怎么去检测网络用户的签名或者标签行为的。这里画了一个图,有几种方式的逻辑,一种是按照字符串来识别,网络包的指纹,不同的应用发送的网络包是不一样的,比如微信、微博带的信息是不一样的,他有自己一个编程框架。我们通过去做协议追踪,可以根据网络包里的指纹,来判断是微信还是微博。

第二种逻辑,按照报文间的逻辑关系,先发什么,后收什么,这种关系来判断是什么协议。第三协议指纹,复杂逻辑组合在一起,判断这个是什么逻辑关系。这是偏技术的,只是让大家了解这个东西是干什么用的,DPI是网络上的一个监控器,可以监控到所有用户行为的数据。

我们这个常见部署,有两类DPI比较多,一类是姓名分析类DPI,顾名思义,主要是针对手机上网的用户做的分析。大家知道,3G也好,4G也好,你的手机会有上网的动作,姓名DPI会监听你手机上网激活的消息,下线的消息,他监控的接口,包括通讯行业比较多的接口。我们的设备或者在运营商里面的设备很多,三大运营商针对所有的姓名DPI都有。

这是给大家一个真正的实例,大家如果有的人做数据挖掘的或者做数据分析、数据变现的,这个给你是一个数据真正的实例,这是一个真实的字段。你看到这个字段里有几个常见的东西,MEI是手机设备码,CI是基站位置信息,基站ID会标识用户的位置信息。这些信息都非常有用,当用户在4G网和3G网每附着一次,切换一次的时候,我们都会有这样的话单生成,告诉我们大数据平台这个用户上线或下线了。这个数据是没有价值的,如果做广告变现,像MEI,你如果做广告变现,是用户的标识,手机码是标识,手机码运营商不会开放。

这是我们所谓叫行为话单,现在所有手机类的应用,上一个APP,都会通过协议来上网。当你的手机访问任何一个APP的时候,会产生一个话单来记录行为特征。这个话单很有意思,你用的是iphone还是三星还是华为,我们通过这个字段可以区分出来。你这个用户访问的上一跳在什么地方,可以知道上一跳从哪里来的。这是大量的互联网公司标识用户属性的字段,这是我们常见的一些字段。

有些字段是运营商内部用的,有些字段是可以拿来做变现用的。我们这些DPI设备上能够输哪些数据,大数据行业如果没有数据的话,再多的数据分析手段,再多的数据分析方法论,最后都没有用,因为是无源之水,没有数据,什么都没有用。大家尝试了解我们数据源长什么样。

基于这个,我们来看看基于DPI技术的大数据应用,这是我们和运营商合作伙伴,包括省公司、集团我们做了大量的探索和创新的东西。怎么样基于DPI上采集到的非常丰富的覆盖范围非常全的DPI数据,来做各种大数据的应用。今天我讲的不是对运营商内部应用,我讲的是怎么用大数据来进行变现,怎么产生商业价值。

第一个是我们做的一个技术体系,我们做一个关系链的数据构建。我们在广告行业去发放广告,针对是自然人,不会针对是一个家庭或者一个单位来发广告,一般是针对自然人来发广告。但是在DPI运营商网络里面,很多时候你没法真正准确追踪到每个自然人。

比如我以固网为例,中国电信或中国联通固网量非常大,大部分家里宽带都是电信和联通的宽带。但是你家里有三口人五口人,在你一个家庭宽带账号下面上网的用户很多,如果是一个小企业,可能十几个人二十个人,这时候什么样的分析技术,能够确保知道现在正在上网的终端是属于某一个自然人的,这个是一个很复杂的技术。需要在数据分析行业有关系链数据的技术,希望能够把这些自然人对应在一起。

还有一种是跨屏的情况,你有两部手机,有一个ipad,对广告主来说,这三个是同一个人,他需要一个技术把这些串在一起,包括一个家庭下面有多个人,或者一个人有多个终端,我们希望归纳到一起。你如果不能精确识别到自然人的话,你对这个人的画像一定是非常模糊的。

举例子,你跟你先生关注的东西是不一样的,女士关注时尚的东西,男士关注IT的东西。如果在一个家庭上网的话,画像结果,这个人既关心时尚,又关心IT,这个画像就乱了。关系链数据,把画像人的主体区分清楚,希望这个人,比如太太就是太太,先生就是先生,小孩就是小孩,老人就是老人,把每个人画像画的非常清楚,方便广告的人追踪投放的效果,这是我们要做关系链数据。

比如我在淘宝有一个账号,有一个支付宝的账号或者淘宝账号,我在腾讯有一个腾讯账号,微信号或者QQ号,在百度有一个百度账号,实际上都是我同样一个自然人。我需要一个方法,去把这些对应在一起,我知道这个人百度账号对应淘宝账号那个人,我要知道这三个账号是同一个人,这样画像会非常准,这个我们称之为叫关系链数据的构建。数据是海量的,大家每天都在上网,怎么样能够精确的追踪到这个自然人,其实是非常难的一件事情。

基于这个关系链数据的应用,常见的是两种应用,在做广告投放的时候有效区分自然人,保证画像效果是准确的。关系链数据挂的数据IT是准的,这是第一。第二,跨屏打通,这样人的画像是完整的。第二个应用是比较热的。

所谓征信的应用,举个最俗的例子,最近有一个新闻,中国政府跟中国台湾在谈,中国台湾有很多电信诈骗犯,需要遣返到中国大陆来。意思就是说骗子是很多的现在网上,征信,比如我是一个做网贷的公司或者发信用卡的公司,你在我这申请信用卡,我为什么要给你发信用卡?一定要用征信的风控模型去算,这个数据是银行交易数据,这些信息都可能是骗子利用的,因为骗子本身就是要骗你的,他的身份证可能是假的,银行数据肯定是伪造的。比如这个人申请网贷,这个人以北京人的身份去申请一个网络贷款,我是北京人,在北京居住,你查,他在北京根本没有呆过。

比如骗子比较多的某几个省份,银行会发现什么问题?这个申请人基本没有在北京出现过,他自然会画一个问号,这个人是怎么回事,是长期出差还是恶意的欺骗行为?这是一种常见的场景。还有一种是催收的,当银行发现我这个贷款出问题了,我需要追这个人,如果这个人是善意的,就还钱。如果这个人是恶意的,他的手机号码一定会换到,原来是135,换成138或者137,跑掉了,银行或者贷款公司找不到这个人,催收有问题。

这时候我通过关系链数据怎么查,原来手机号挂了一个淘宝账号或者京东账号或者百度账号或者QQ号,我通过一个新的关系链数据,发现你挂的QQ号挂了另外一个手机号,这个人换了手机号,没有换QQ号,通过这个找到这个人。通过关系链数据,我们可以很快追踪到这些人,帮你把这个人找到。

另外一个应用,我们讲的比较多的,现在比较流行的就是精准营销的应用,精准营销是整个互联网潮流,这个市场非常大。我看很多市场调研报告,每年线上广告投放全国是两千亿以上的投放量,线上广告现在越来越精准,精准化是一个大趋势、大方向,以前是品牌广告,现在是越来越精准。

这里面基于DPI数据,所谓用户行为数据,这里的法律问题,界限问题,运营商是不是给,是不是合法,这不是我们讨论的问题。

首先是用户画像,输入用户的ID,比如这个ID是手机号或者他的某某ID,首先知道这个人是什么人,第二通过DPI的协议分析识别能力,可以识别这个人使用过什么APP,有没有用过微信或者微博,用没有用过医疗的应用,应用的属性我们是可以知道的。这样的话,你可以通过输入一个ID,通过DPI的行为数据,可以追踪到这个人用过哪些APP并且感兴趣。比如他用过一个汽车之家,他对汽车感兴趣,这个会反映兴趣点。

第三个,通过UL数据库,有些用的不是APP,我们可以通过他访问的UL来分类,这个分类不是简单的所谓分类。举个通俗的例子,比如你访问一个汽车网站,新浪汽车频道,你会给他一个标识,这是汽车频道的东西,这个人对车感兴趣。我们UL知识库会做一个链接的分类,比如你访问的是新浪某一个UL链接,这个链接我把它取下来,做分类。这个车是卖保险的,卖北京地区的保险,卖的是商业险还是交强险或者卖车友会服务的,我会把UL库做一个分析和分类,这样可以帮助你们去追踪这个用户真正的兴趣点,来做精准的营销。

第四个,我们通过搜索关键字,标识用户兴趣点,这是很常见的一种方式。既然是DPI,就会监护到用户的搜索数据,这样可以看到用户搜索的兴趣点。通过这种方式,输入一个用户的ID,得出这个用户最近发生过的行为信息,通过这个来做精准营销和画像,这是非常常见的产品应用。当然各个厂商或者各个方案提供商做画像的标签库方法完全不一样的,每家都有自己的优势,但是DPI是一个基础。

第二个是基于画像属性反查用户,比如我是卖糖尿病药的,我希望找到糖尿病病史的人,谁搜过糖尿病,我对他做营销。我可以通过输入用户的属性,谁搜过糖尿病,查是谁。我也可以通过用户使用过一个医疗APP,我可以查。

第三种比较有意思的,就是输入用户位置属性反查用户,这是互联网圈子的人认可的一点。DPI属性跟BAT属性相比,位置属性更强,尤其手机用户,现在4G时代,手机基站信息定位精度非常高。通过这个DPI说的数据,可以实时反查这个人位置属性的,这会支撑你的精准营销。还有就是用户触达,这个今天不细讲了。

另外我稍微提一下,我们最近看的一些很有意思的场景营销。实时捕捉用户兴趣点,基于地理位置,按照当前时间,当前位置,来确定广告人群。也可以基于兴趣点来发广告,同时可以提供一站式的广告发布平台来做这个事情。

另外一大类应用,是咨询报告的应用,这是基于DPI数据非常容易做的一个应用。常见的比如人流和选址服务,这种咨询报告是非常多的。比如某个热点区域多少人在干什么事,在怎么流动,这是很常见的一种场景。中国移动用户群比较多的运营商,可以很容易这么做。另外可以根据指定位置的人群进行画像,像一些做加油站的或者开超市的,想做选址分析,想看附近的人流情况,通过这个报告可以很容易来做这个事情。这是我们称之为人流选址服务,这个用DPI去做是非常合适的。

第二类是竞品分析,在法律上怎么界定,圈里没有严格的说法。在技术上来讲,利用DPI技术是非常容易做精准分析的。比如我是想知道,比如我是APP开发公司,我想知道我竞品APP的使用情况,很容易利用DPI数据来做,圈内已经有公司做这样类似的事情了。

比如我是网站的管理员,我有自己网站的数据,没有别的网站的数据,通过这个可以咨询到。第三类叫舆情分析,通过监控热点事件,看整个行业的内容,关心热点事件,像舆情热点、安全事件,这个舆情分析是很常见的一点。通过DPI数据,可以很容易监控到整个舆论的热点。你如果做的更深入一点,可以利用DPI数据,可以追踪论坛的用户画像,不仅知道内容,还可以知道是哪个人。

关于数据质量的话题,真正做数据分析的人会知道数据质量是很致命的,我们讲很美好的数据,大数据多么好,大数据多么有用,当你碰到数据的时候,我们会很惶恐或者很无助。举个最俗的例子,如果是个互联网公司,我想做生意,运营商开放数据给我,让我做生意,收我的钱。我有很基本的诉求,希望有一定的地理覆盖度,希望是北上广深的数据加江浙沪的数据,这个问题至少目前来看,解答的情况是比较难的。

很多运营商没法给你开放多个省的数据,有些省开放,有些省没开放,数据覆盖度就是一个很大的问题。有的时候我开玩笑,现在大数据行业,我们炒了很多概念,炒了很多技术,但实际数据的生产,我认为属于原始社会时期的。数据生产是非常低效的,非常难做的。运营商要部署地下设备,我们花了三年时间才把运营商布了一部分的端口,完全没有做到100%的覆盖。数据DPI上去之后能采到数据,还要存数据,还要做分析,这又需要周期,整个IT基础设施非常不发达。我们看到整个数据生产这一块属于原始社会时代。

互联网公司可能好一些,比如像BAT,我听说百度有上万集群,在运营商行业我认为这个数据加工还是刚刚开始的阶段。实际我们在做数据分析的时候碰到很多问题,比如第一个,我们常见的问题,用户话单的关联率的问题,我知道这个用户上网了,不知道用户的话单,这是地区个常见的问题,遇到的情况非常多。

第二个用户流量的覆盖率,一个省的流量可能覆盖10%、20%、30%,意味着30%的用户数据你可以看到,其他是看不到的。还有提取用户字段的问题,行为数据字段是非常多的,前面给大家看的字段是标准字段,字段是非常多的,提取的比例是多少,用户是1%能提出来还是100%提出来,这是不一样的。历史数据只能做历史业务,做营销可能就不能满足要求。

另外就是地理位置数据的精度,基站定位精度怎么样,另外就是在运营商里面有一个所谓的DPI异常厂商的问题,一个网络里有多个厂商,A厂商的数据和B厂商的数据不一样。还有网站加密,这些问题是我们现实碰到的一些问题,真正碰到数据的人就会知道,这些问题是你绕不过去的。

在我们讲很多美好故事之后,讲完故事之后,要落地的,落地会碰到很多问题,要有实战经验去解决问题。这些问题我们碰到过,也有一些经验,希望下来跟大家交流,我希望能够把DPI数据价值发挥出来。因为DPI数据我们认为是很有价值的数据,会采集到非常完整的用户行为数据,有很强的位置数据,我们希望能够形成一个商业模式,能够和运营商把这个数据做合理合法的变现。

今天就讲这么多,时间比较有限,谢谢大家的关注,有什么问题可以下面交流。

原文发布于微信公众号 - 数据猿(datayuancn)

原文发表时间:2016-04-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯大讲堂的专栏

“喂,你要不要让自己试试看?”

12730
来自专栏罗超频道

苹果Files接入的这个产品,堪称百度AI战略的前瞻布局?

2005年,史蒂夫•乔布斯(Steve Jobs)在D3数字大会上给出了一个设想:操作系统能不能不带文件系统?他的理由是,不论是电子邮件还是iTunes还是照片...

28850
来自专栏程序员的知识天地

程序员的迷茫:前端能做什么?还是后端?全栈?

在我的职业生涯过程中,发现很多人会跑来问我这样的问题,前端能做什么?这条路怎么走。然后他们会分开来问一些子问题,例如说到底我进入了前端我应该做产品呢?我应该做基...

22720
来自专栏人工智能快报

新技术可通过人脑控制多台无人机

2016年7月8日,美国亚利桑那州立大学(www.asu.edu)发布消息称,该校一名研究人员已经发现如何使用人脑控制多台无人机。在实验中,一个操控者将一顶骷髅...

28870
来自专栏新智元

马云为何要做平头哥?A12X仿生芯片性能爆表,测评跑分公布

许是名字的杀伤力太大,反而冲淡了公众对自研芯片配合自家应用强大优势的认知。不过,苹果最新发布的2018 iPad Pro及其搭载的A12X仿生芯片,无论是CPU...

10830
来自专栏企鹅号快讯

微信想用小程序挑战传统App?

12月28日,微信小程序迎来年末最后一次更新,不仅给予了小程序通过下拉菜单快速进入的入口,其新增的“小游戏”类目同样瞩目。 当大家还沉浸在跳一跳的趣味体验时,“...

25190
来自专栏ytkah

林兴爆料小程序很快可以支持各个 App 直接打开小程序

24020
来自专栏企鹅号快讯

微信小程序游戏其实一般,我也就站在寒风里玩了一个小时

NAUGHTY Tech —2018,祝大家狗年大吉吧— 2017 年 12 月 28 日火了一个游戏。你需要做的,就是通过按住屏幕的时间长短来控制一枚跳棋从一...

33790
来自专栏微信终端开发团队的专栏

今天不讲技术的事情了,讲个最近让我有些纠结的事

51660
来自专栏云计算D1net

一切虚拟化:软件服务是如何吞噬物质世界的?

马克·安德森(Marc Andreesen)曾在2011年说过一句话:“软件正在吞噬世界。”这句话已经变得家喻户晓,但我认为这个论断只在一种情况下成立:有利于软...

28990

扫码关注云+社区

领取腾讯云代金券