大数据技术在舆情服务领域的应用

本文是作者在2018年9月5日众智汇社群分享的记录。由@泓逸 记录整理。

作者:白剑波 北京智慧星光信息技术有限公司总裁

天津大学计算机学士,北京航空航天大学计算机硕士

曾经担任翰云时代科技有限公司总裁,NOKIA位置服务部门大中国区产品总监,甲骨文(Oracle)顾问咨询服务部中国区实施总监,Sun公司ISV工程部高级经理,北航教师等。


什么是

互联网舆情

什么是互联网舆情?让我们先通过几个热点事件,来感性地认识一下:

【杨达才事件】:杨达才是陕西省安监局的局长,2012年陕西省的高速公路上出了一起严重的车祸,死伤严重。杨达才第一时间就赶到了车祸现场。但是被新闻记者拍了一张他面带微笑的照片,并且发到了媒体上。 在车祸现场微笑的行为引起了网民的愤怒和不满。在这种情况下,有网民发现杨局长戴的手表非常名贵,然后大家在新闻里边收集了很多杨局长出现的照片,发现他带过超过20块昂贵的名表,于是把信息都通过自媒体的方式报道了,曝光到了互联网上。 曝光引起了对杨达才广泛的质疑,然后纪委对开始了调查,结果发现他的财产超过一千多万,而且有一半的财产是无法说明来源的。最后把他撤职法办,判处了14年的有期徒刑。

【郭美美事件】:有个叫郭美美的在微博上炫富,并自称是红十字商会的总经理。结果把舆情引到了红十字会,导致红十字会出来澄清说没有一个叫红十字商会的机构。 红十字会因为这个事件信誉严重受损,之后一段时间,收到的捐款严重下降,甚至在一些地区是零元。

类似的事件还有很多,例如成都女司机被打事件,青岛天价大虾事件等,都曾在短期之内造成恶劣影响。

根据这些案例,我们可以看到,互联网舆情具备这样几个要素

  1. 以网络为载体;
  2. 以事件为核心;
  3. 集中了广大网民的情感态度。

网民的观点和意见的表达,在事件的基础上借助网络传播,同时伴有互动,从而产生了巨大的影响力——这就是互联网的舆情。

如何应对

互联网舆情

对于互联网的舆情我们应该如何去应对呢?

我们有很多的客户,客户经常问我们一个问题:你可以去帮我们去监测,但是有了舆情之后,我应该如何去处理呢?

这里面我告诉大家两个原则,给我们客户提供的两个原则

  • 第一,要及时全面精准地掌握舆情信息,把握整体态势;
  • 第二,要积极主动的应对,而不是被动等待。只有这样,才能够比较好的应对和处理舆情事件。

那么当然,正确应对的前提是要查知舆情,这就需要对舆情进行监测。

互联网

舆情监测的需求

目前关注互联网舆情的机构大致分为两类:政府和企业。

1. 政府的需求

政府内部,目前有两个机构对舆情高度关注:

一个是公安,公安体系里有一个专门的警种,叫做网络安全(网安),或者叫网络警察,他们负责舆情监测的工作。

另外一个是党委,党委有宣传部,最近又成立了网信办,都负责监控和把握网络舆情。

对于政府来讲,需求都直接,就是要掌握舆论动向,了解各种事件的事态发展。

2. 企业的需求

而企业的需求,则与政府有很大不同。企业关注互联网的舆情,大致有以下几种需求:

(1)品牌舆情

比如:自己的企业在互联网上的形象是什么?产品、品牌在互联网上的口碑是什么?

(2)行业信息

有什么样相关政策?有什么行业新事件发生?

(3)竞争对手信息

竞争对手在做什么?推出来什么样的产品?在打什么样的价格攻势?有什么样的市场活动?

(4)用户调查

企业也自己产品/服务用户的反馈同样颇为重视。他们非常想知道用户对自己产品的评价。

(5)语音质检

先来越来越多企业希望把他们的客服与用户通话的录音转成文本之后再做分析,以此来评价话务员的服务质量,也可以从里面去分析用户对产品的一些需求等等。

(6)企业风控

有些企业会需要舆情服务商针对特定名录或名单进行实时监测。监测和这些名录上的实体相关的新闻、论坛、自媒体等信息。

舆情监测

的市场价值

在互联网信息的精准匹配领域中,舆情监测是一个明确的专项市场。这个细分领域的业务看似狭窄,实则市场价值巨大。

以我们公司为例,我们从2012年开始基于开源工具做第一代的产品,2013年才把重要模块都自主化。在这样一个可以说是因陋就简开局的环境里,前2年就达到了800家签约客户。

6年来我们的试用客户累计超过5000个,而付费签约客户有3000多个。

在这里透露一下:我们最大的客户群体属于公安体系的,有1500多个正式客户,整个的公安体系实际上是有3400多个客户。

用户对

舆情监测系统的要求

1. 实时性

用户对于网络舆情监测的第一要求就是实时,一定要快,这是显而易见的。

我们公司(智慧星光)提供的信息是实时的。可以到什么程度呢?比如说百度贴吧,目前有2200万贴吧,每天原贴大概在一百五十万左右。我们在两分钟之内可以百分之百地把这些信息采集到,并且进行处理,推到用户的账号里面去。

2. 全面性

不论政府还是企业用户,都会强调全面性,要求不能漏信息。

尽管我们做的已经非常全面了,有的时候还是会被客户投诉,说漏掉了部分信息。

3. 精准性

互联网的信息非常多,舆情服务商的采集能力强的话,就会采集到巨量的信息。如果只是对上关键词就推荐给客户的话,客户得到的数据就会有相当多的噪音数据垃圾数据。

所以要进行准确性的处理,通过机器学习模型做语义分析,去除噪音数据,把正确的和客户关系最密切的数据推送给我们的客户。

4. 双向性

从时序上讲,舆情监测有两个方向。

一个是正向的,就是说预先设定一些监测模式或者关键词,只要互联网上出现了match的信息,就会实时的处理,并推送给客户。

另一个是反向的(回溯的),就是出现了一个事件之后,回溯之前一段时间内与事件相关的报道,同时做一个事件的分析,再提供给我们的客户。

现阶段

舆情服务的类型

目前的舆情服务,大概可以分为以下这些类型:

1. 舆情监测和预警服务

这显然是舆情服务的基础和核心。对于政府叫舆情监测和预警,那么对企业就叫做口碑监测,同时也包括竞争情报分析。

2. 态度感知服务

当一个事件发生的时候,客户非常希望了解整个态势。包括:事情发展到什么程度了?是加速上升还是已经平稳?网民的主要观点是什么?网民情感分析里面现在的正负比例是什么样子?

不论政府还是企业都需要有这样的服务。这一需求也体现了对前面说到的双向监测的要求。

3. 实体画像

包括人物画像和企业画像。针对一个人可以做任务画像;针对一个企业,可以做企业画像。

比如:针对微博的大V做人物画像——网络大V(也叫做KOL,就是意见领袖)。

政府主要关注的他们在发表什么观点?当有舆情事件发生的时候,这些大V的观点倾向是什么?是支持、中立,还是反对?

企业也需要了解行业大V关于产品的发言,他们的态度和倾向分别是什么样子的?企业在获得了意见领袖的倾向后,可以获得市场推广的目标人物名单。

我们和客户进行合作的时候,可以在整个新浪微博里帮客户筛选出一批意见领袖,让他们可以在线下和这些KOL沟通,进行市场活动和宣传。

4.用户自主的数据分析

客户在进行了一段时间网络舆情监测后,必然会累计历史数据,很多客户都有对这些历史数据进行分析的需求。但具体到每个用户,所要分析的内容又是千差万别,无法统一成标准化产品。

这时候,就需要舆情服务商提供数据存储、处理和分析工具的支持,使得用户可以自主分析自己的数据。

比如在历史数据上进行统计分析,或加入自己的模型(分类、聚类)等。

5. 内容发布

除了作为被动的信息接受方,客户精彩还会有发布内容的需求。比如到微博去跟帖,在贴吧发帖子,在门户网站发评论等。

传媒客户(特别是传统媒体客户,比如说报社呀,电视台呀)通常需要解决这样一个问题:在得到了最新热点和事件的数据分析后,还要把这些组稿再发送给他们的目标客户。

这样一个大的需求下面涉及到几个子需求:

(1)首先是自动采编。

自动采集用户感兴趣的内容。比如给一个军事题材的编辑采集最新】最热的和军事相关的新闻、自媒体的消息等。

(2)然后是智能组稿。

把相关新闻自动生成摘要,并组成一篇稿件。

(3)还有就是传播评测。

一个编辑写了一篇稿子,这篇稿子的传播力、影响力、领导力和公信力分别是怎样的?

从这四个方面来进行评测,最后能给出一个量化的评测值,提供给客户。

舆情系统

的实现技术

1. 数据的采集(爬虫)

舆情监测企业拼的最重要的一个环节就是数据的能力,数据采集(网络爬虫)是数据能力的基础也是核心技术之一。

以我们公司为例,2012年我们开始做第一代的产品,当时互联网爬取,用的是“火车头”爬虫。我们的工程师每天做的工作,就是写火车头爬虫的配置脚本。到了2013年,我们才做了自己的爬虫。

现在我们是舆情企业中爬取能力做得比较好的公司,有很多其他的舆情厂商从我们这儿购买数据,再去给他们的客户提供服务。

这里面有一个问题——爬虫的策略

早期我们用火车头,现在可能还有一些人在用火车头做数据的爬取。但是对于大规模的爬取,特别是每天有超过1亿条数据的采集,必须使用自己的爬虫!

我们公司自己做了一套协作式的爬虫,简单来讲就是:有一批爬虫爬取列表页,还有一批爬虫爬取详情页。列表页和详情页的爬虫相互之间要进行协作。有一套管理机制,对于列表页的刷新的频率进行控制。

爬虫有一个很重要的机制,就是去重。用协作爬虫去进行爬取的时候有相当多的url,我们就通过url进行去重,确保能够采到数据,又不会重复采集同一个url的数据。

下面是我们公司目前的一些数据:

监测了14.5亿个新浪微博账号和2200万百度贴吧。新浪微博每天的原创微博数据大概是在8000万条到一亿条之间。 监测1450万个微信公众号,都是发过文章的。每天文章的数量大概在100万到150万之间。 直接采集10万+网站,还通过搜索引擎来进行补充。(根据工信部数据,国内总的网站数大概是470万。) 监测了300个电视台,大概4000到5000个左右的电视栏目——我们监测声音,把声音转成文本,然后再对其中的一些关键词进行匹配,如果有匹配的关键词,或者是我们认为敏感的关键词,我们会把这个信息抓出来提供给客户。 还监测了400多个手机应用,电商平台、平面媒体的平台超过了2000家。 另外对facebook、 twitter、QQ群和微信群也进行了监测。

当然,我们所采集的数据全都是公开的,只有在互联网上允许访问的数据,我们才进行采集。

这里要特别说一下QQ群和微信群。通常我们监测的所有舆情信息都是在互联网上公开发布出来的。这些群信息和其他的信息不太一样,实际上是一种私密信息。

我们实际上是代理用户监测群信息,就是说我们的客户有一个QQ号,或者微信号,他们把这个号和密码提供给我们的监测机器人,机器人帮助他们监测这个号加的所有的群,这个群里面只要出现了敏感信息匹配的关键词就会推送给他。

至于运营商的数据、上网行为数据等,只有运营商自己才有。甚至是连公安的人到运营商那边去要这些数据,如果没有立案手续的话,运营商也不会把这些数据给到公安的。

2. 数据的存储和检索

目前我们的数据存储量已经超过了800亿条,过去采集到的所有数据,我们都存了下来。

而每天新增的数据,在一亿条到一点五亿条之间。每天采集到这么多的数据,全都处理之后在全部保存下来。

这样量级的各种格式的数据(地地道道的大数据),怎么存的?怎么取?怎么去索引呢?

我们开发了一个多元异构的数据融合平台,基于分布式存储,用于存储文本信息。目前存储量已经达到了3PB。

在存储的基础上,我们还开发了一套支持复杂逻辑的快速检索系统。

这里说的复杂逻辑和百度搜索不一样。百度搜索只能输入关键词或简单的逻辑关系。我们的搜索可以做到上千个词,逻辑可以比较复杂,并且能支持像词、短语、文章还有相互之间条件的各种复杂的关系。

3.数据分析(文本处理)

对于我们公司而言,目前数据分析是我们的第一核心竞争力

对采集到的文本数据要进行处理,主要是通过自然语言处理(NLP)的方法进行去噪、实体抽取、正负面判断等等。这些构成了文本处理的基本要素,只有处理完之后的文本,才能够匹配到用户的需求。

这里我们来看一个例子:评论聚类。 我们采集京东、天猫、苏宁、唯品会的评论信息。 然后,对于采集到的评论,用类似TF-IDF这样的方法做主题观点的抽取,之后再对这些主题观点做哈希计算,然后根据哈希值,进行文本聚类。 最后给出量化的值,并把最终的统计结果提交给给我们的客户。通过这样的最终结果,用户可以直观地了解到用户对于不同品牌、不同商品的评价和态度。

4. 数据安全保障

在几年前,我们公司就收到过信息勒索。当时是我们有一个新系统,在设计的时候,安全性防护上出一点点问题,被黑客攻击了。

黑客进入系统之后,把我们的一些系统文件删除掉,然后在里面的留了信息,让我们到某地址去进行联系。

因为这个系统并不是重要的业务系统,我们就没有理他,直接被攻击的那台机器重新做了格式化,然后做了安全的防护。

黑客发现我们没有理他的信息之后,就开始第二次攻击,给我们就搞事情,用的是DDOS攻击。一天的时间里,让我们提供服务的带宽全都被占满了,导致客户在这一天里无法进行登录。给我们造成了比较大的困扰。

我们技术部门做了紧急处理,最后把系统加了一个阿里云的高防。

之后黑客又用SQL注入的方式攻击我们的系统,企图盗取账号和密码。但是部分我们是有所防备的,黑客没有能够得逞。我们的安全体系在最后是经受住了考验。

这力也是给大家建议,应该时刻把安全的放在第一位。

小编直通车:扫描下列二维码,添加yuesiyuedu小编为好友

原文发布于微信公众号 - 悦思悦读(yuesiyuedu)

原文发表时间:2018-09-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Java架构师进阶

什么样的架构师才是真正的架构师?

  很多的创业公司,一人身兼数职的情形还是很常见的。至少,我是经历过的,一个人包办了所有的开发过程,连测试我都做了,绝对的一条龙,但是经常踩钢丝、骑独轮车总会有...

844
来自专栏云计算D1net

关于混合云,很多人都会有这些误解

云计算的兴起和任何趋势化的领域一样,都会不可避免地出现相当多的炒作以及混淆视听的噪声。 混合云自然也不例外,这导致人们对云的混合方法也产生了各种各样的误解。为了...

3336
来自专栏华章科技

大数据应用的下一阶段发展方向在哪里?

来源:https://www.oreilly.com/ideas/whats-next-for-big-data-applications

942
来自专栏人称T客

原生云可期?报告显示将近五分之一的应用将“原生”于云端

撰文 | 飞逸 用户正在逐渐接受原生云模式,但是一些问题尤其是涉及到网络安全和信息保护还是实现跨越的障碍。 原生云软件的出现 到目前为止,实施云策略的目的是将...

35710
来自专栏喔家ArchiSelf

老曹眼中研发管理二三事

这是在gitchat上的第一次分享,中生代联手gitchat在做研发管理的专题活动,作为先锋,抛砖引玉。

851
来自专栏华章科技

张小龙内部分享:我们只做一件事情,产品只有一个定位

张小龙说:“用户要的是你给他提供了什么新的体验。”一起来学习一下张小龙牛掰的产品思维吧。

1421
来自专栏华章科技

数据是你的生命线,请待她如待初恋

Ben Porterfield 在自己的 Linkedin 主页这样形容自己:一个有经验的冲浪者。除了在 Santa Cruz 海岸冲浪以外,他还帮助一系列初创...

812
来自专栏腾讯大讲堂的专栏

运营是什么

作者:邬嘉文,微信高级运营。精通用户研究,推荐算法,Growth用户运营,结果在微信都用不上。 从市场调查转行腾讯做互联网,那时候还不懂什么是运营。记得有一份大...

56819
来自专栏DevOps时代的专栏

国内领先!招商银行四个项目全部通过 DevOps 标准认证

2018年11月2日,在深圳召开的 DevOps 国际峰会(DOIS)上,招商银行获得由中国信息通信研究院(以下简称信通院)颁发的《研发运营一体化(DevOps...

1801
来自专栏灯塔大数据

一个忠诚的客户是怎么骂着你流失的?

一 分享我的一段经历 最近一年,我先后发誓不再和两个公司打交道,而且利用很多机会向身边的伙伴们宣扬了他们的不佳体验。我相信我确实也影响了不少人的决策。 第一个是...

3024

扫码关注云+社区

领取腾讯云代金券