作为消费者,当遇到消费纠纷时,你会怎么做?向工商部门投诉是常见做法之一。对工商部门而言,每一年都会积累大量来自消费者的投诉维权数据。如何才能更有效地对这些数据进行分析处理、进而更好地服务于消费者呢?
12月6日的线上数据侠实验室·SODA专场中,2017年上海开放数据创新应用大赛(SODA)优秀奖团队——“数决科技与数说故事”的队长陈瑶副教授,为我们分享了基于消费维权大数据的创新应用。
▍用数据分析来辅助工商部门搞定“痛点”
在生活中,如果大家有过消费维权经历,应该知道可以拨打12315或者12345市民热线向工商局进行举报。而对工商部门来说,维权、投诉这块累积的数据量还是挺大的。
仅以上海市为例,工商部门2016年承办的12315投诉总量就有11.2万条,且每年以30%速度增长。这些大量的数据都是以非结构化的文本数据的形式来呈现的。
我们对上海市工商局消保处进行了三次实地调研,了解到有四个方面的主要需求:
1. 优化和改进现有的投诉举报相关的业务流程和系统。
2. 累积的大量投诉案例数据,需要进行文本深入挖掘分析,达到精准监管目的。
3. 投诉量上升趋势明显,工作量大,需要提供智能辅助工具降低人工管理压力。
4. 不仅需要被动接受消费者投诉,更需要整合大量外部数据,主动监控市场热点、防范风险。
我们的参赛项目,将重点放在解决管理部门的这些痛点。项目结合了管理中的实际现状、同时做了一些探索。
在数据方面,上海市工商局提供了2015、2016年的大量投诉举报的数据,另外我们也通过合作伙伴数说故事公司获得了一些持续采集的、海量的互联网舆情和新闻的数据。
▍解决思路:打造一个整合的信息系统
如何才能帮助工商部门解决痛点呢?首先需要说明的是,我们这次参加SODA大赛,其实并不是开发了一个全新的平台,而是在现有的信息系统的基础上,给出了一个产品的原型。未来如果要具体展开应用,还是需要结合现有的信息系统做再次开发的。
在这个原型产品中,我们借助自然语言学习、机器学习、运营优化领域的专利技术等,实现了一些功能。包括智能识别职业打假、智能识别相关案件、智能行业分类、基于大数据的群体事件舆情监控、基于大数据的重点对象舆情实时监控、各级人员的运营调度优化等等。
(图片说明:数决科技团队“消费维权大数据智能管理平台”新业务流程图)
文本数据可视化只是为了数据的展示,帮助我们了解现状是什么、问题在哪里?另外还有一个很重要的方面是利用现有的这些数据,我们能否做一些工具,来提高今后的管理、决策的效率。这也是我们这个团队想要达到的目的。
虽然我们的项目名称叫做大数据平台,但事实上这个平台的最大特色应该是在决策模型上。因为在展示完数据后,需要做决策,而决策是需要建模的。这也是我们团队在重点研究的方向。
下面我重点介绍我们平台中可实现的部分功能。
第一个功能所要解决的是日常每天都会发生的事情,当工商部门接到一起投诉,需要用文字记录下来,有需要从历史数据库中寻找这起事件是否多次发生,因为我们知道,如果累计发生多次,可能会酿成较大的社会问题、群体事件。我们需要做的功能就是把自然语言处理的聚类模型应用在这个场景里边。
这个场景基本上是这样:当你有一个新的案例录入成文字,需要在现有的案例库中去建模和这个新的文本进行对比。
这其中,我们需要通过模型来识别一词多义的现象,因为可能会有不同的录入员工,每个人使用的措辞会不一样,其实这些词是同义词,因此我们需要将这些词识别出来。而在找到了相关的案例之后,我们需要对相关性进行排序。
当文本输入之后,我们可以通过相似度查看最相关的一些历史案件。我们划定了一个阀值,如果相似度达到了0.6,就意味着达到了高相似度。
比如,上图中的例子中,相关的案件达到了18件,就意味着这样的事件已经发生多次。对于主管部门来说,可能就要引起重视了。是不是这家企业在经营当中的问题?是否需要重点关注、预防大型群体事件发生?
另一个主要开发的功能是关于职业打假。
这项功能是基于现实的一些情况,同时我们也看到了一些新闻报道,我们也想知道这十几万条数据中有多少人是真正的消费者投诉、有多少是职业打假人。
为此,我们做了一个模型来尝试能否将这些人找出来。只要一输入投诉案例的文本,就会和我们建好的职业打假模型相匹配,从而可以识别职业打假人。
第三个主要功能是通过外部的数据源来做舆情的相关监控。就是对某家企业的舆情进行监控。
如果某家企业在互联网上负面评价较多,从工商部门角度来看,其实也可以提前预防、对消费者进行一些消费风险提示。
这里我们可以通过自助餐品牌金钱豹歇业事件来做具体观察。通过舆情数据,我们看到,这个事件早在2016年就已经开始发酵。
当时就已经有全国各地不少消费者为此进行投诉,包括一些媒体的报道,只是并没有达到群体事件的阀值,没能引起太多重视。
我们回溯了过去一年中沉淀下来的数据,这些数据来自于新闻、微博、微信公众号、论坛等,关键词为“金钱豹”(排除动物园伤人事件相关的),最后是获取到了788条相关数据。
我们发现,在歇业事件的前一年时间里,新闻媒体上已经陆陆续续有了一些报道。
可以假设,如果工商部门可以提前看到全国的舆情数据,是可以做关于事件的提前监控的。比如,通过在平台上输入一些关键词来建立实时数据的引擎,主动设置一些预警点等。就如在金钱豹事件中,如果能够提前向消费者提示充值交费的风险,是可以做得更好的。
另外一个例子是携程。
我们看到,携程相关的机票投诉案件有18件,通过词云也可以显示出来企业在网上的口碑情况等。对工商部门来说,这对于第一时间了解企业的网络形象是有帮助的,可以了解到企业的声量、相关评论的情绪变化、词语热词等。还可以看到投诉人的地域分布、讨论该话题的人群等。
从产品的角度看我们的项目,我觉得其最大价值在于能够通过这些工具、算法帮助各级工商主管部门进行分析统计、提升管理决策监管的效果。
而从更大的方面说,如果市场监管人员能够提升效率,对广大的消费者也是好事。工商部门可以更快速地帮你解决问题,甚至你还没有进行投诉,你在网上发的一条评论都可以被采集、进而反馈给主管部门。你的评论也许可以反映行业中遇到的某个典型问题、及时发现并去解决问题,这对于改善消费环境、保护消费者权益有很大的作用。
我们每个人都是消费者,如果能够提升政府部门的效率,每个人都会受益。现在有很多投诉、反馈的数据其实是被淹没了,如果能够通过一个好的平台得到挖掘、体现,那就是有意义的。
注:以上内容根据陈瑶在线上数据侠实验室的演讲实录整理,文字有删节,文中图片均来自作者分享现场PPT,已经本人审阅。本文仅为作者观点,不代表DT财经立场。
作者 | 陈瑶
编辑 | 胡世龙 : hushilong@dtcj.com
本文数据侠陈瑶,数决科技项目总监。2017年SODA大赛优秀奖团队队长。上海对外经贸大学副教授,同济大学博士,上海交通大学博士后。专长领域为运营管理、大数据分析、优化模型、自然语言处理等。